面向嵌入式計(jì)算平臺(tái)的自動(dòng)語音識(shí)別關(guān)鍵技術(shù)研究.pdf_第1頁
已閱讀1頁,還剩185頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、在未來幾十年,先進(jìn)通信將迅速改變?nèi)藗兊纳詈凸ぷ鞣绞?隨時(shí)、隨地使用一定范圍內(nèi)的設(shè)備進(jìn)行實(shí)時(shí)通信和實(shí)時(shí)數(shù)據(jù)處理將逐漸成為現(xiàn)實(shí),基于嵌入式計(jì)算平臺(tái)的自動(dòng)語音識(shí)別(Automatie speech Recognition,ASR)是關(guān)鍵技術(shù)之一。
   許多在實(shí)驗(yàn)室表現(xiàn)優(yōu)異的ASR系統(tǒng),一旦應(yīng)用到復(fù)雜的實(shí)際噪聲環(huán)境就馬上變得不穩(wěn)定;另一方面,魯棒性高的識(shí)別系統(tǒng)往往依賴于高計(jì)算量,只適合運(yùn)行于PC平臺(tái)甚至高性能服務(wù)器。如何降低ASR系

2、統(tǒng)的計(jì)算復(fù)雜度使之適合嵌入式平臺(tái),并提高其在復(fù)雜噪聲環(huán)境下的魯棒性,是嵌入式ASR研究的重點(diǎn)和難點(diǎn)。目前,嵌入式ASR應(yīng)用系統(tǒng)多為分布式結(jié)構(gòu),即在目標(biāo)設(shè)備上裝載語音識(shí)別前端,將復(fù)雜的語音識(shí)別后端放置在服務(wù)器。本文著重研究基于嵌入式計(jì)算平臺(tái)的自動(dòng)語音識(shí)別前端關(guān)鍵技術(shù)。
   作為ASR的第一步,有效的語音端點(diǎn)檢測可減少系統(tǒng)后續(xù)處理時(shí)間,排除無聲段噪聲干擾,提高語音識(shí)別準(zhǔn)確率。本文提出了兩種語音端點(diǎn)檢測新方法。其一,將時(shí)域?qū)?shù)能量特

3、征與頻域譜熵特征相結(jié)合,提出基于對(duì)數(shù)能量譜熵的端點(diǎn)檢測方法,由于其計(jì)算簡單可應(yīng)用于中低端嵌入式平臺(tái);其二,針對(duì)抗噪性能優(yōu)良但計(jì)算稍復(fù)雜的非線性語音特征端點(diǎn)檢測,提出基于樣本熵的語音端點(diǎn)檢測方法,有望應(yīng)用于高端嵌入式平臺(tái)。仿真實(shí)驗(yàn)表明,兩種新方法在低信噪比環(huán)境下,比傳統(tǒng)的能量法、譜熵法、能量譜熵法、對(duì)數(shù)能量法等都具有更好的魯棒性,能更好地區(qū)分語音和噪聲,檢測準(zhǔn)確率更高。
   語音增強(qiáng)是從含有噪聲的語音信號(hào)中盡可能消除噪聲,還原出

4、純凈語音信號(hào)。完全消噪是不可能的,實(shí)際系統(tǒng)中的語音增強(qiáng)以抑制背景噪聲、保護(hù)和提高感知語音質(zhì)量為目的?;诙虝r(shí)譜估計(jì)的語音增強(qiáng)算法由于計(jì)算簡單最適宜嵌入式平臺(tái),但有時(shí)會(huì)造成語音失真。本文分析比較了幾種典型短時(shí)譜估計(jì)算法計(jì)算復(fù)雜度,針對(duì)其中乘加計(jì)算量最小的RL算法進(jìn)行改進(jìn),引入人耳掩蔽效應(yīng),提出基于Bark域的RL改進(jìn)算法,并進(jìn)一步降低了計(jì)算量。實(shí)驗(yàn)表明,改進(jìn)后的算法能顯著抑制噪聲,并有更好的語音質(zhì)量,有效減少了語音失真。
   語

5、音特征提取是ASR前端的最后一個(gè)環(huán)節(jié)也是最重要的環(huán)節(jié),特征提取質(zhì)量對(duì)識(shí)別結(jié)果起決定性作用。美爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficient,MFCC)以其良好的性能成為ASR系統(tǒng)標(biāo)準(zhǔn)前端,本文針對(duì)標(biāo)準(zhǔn)MFCC提取過程進(jìn)行了兩點(diǎn)改進(jìn):一是調(diào)整了漢明窗系數(shù),提高窗函數(shù)性能;二是將子帶頻譜質(zhì)心(Subband Spectrum Centroid,SSC)加入MFCC過程。傳統(tǒng)語音特征提取利用了語音幅度信息

6、卻忽略了頻譜信息,由于各頻帶頻譜峰值位置受背景噪聲影響相對(duì)較小,具有更好的魯棒性,而SSC非常接近頻譜中的峰值位置,本文將SCC引入MFCC,提出基于美爾子帶頻譜質(zhì)心(Mel Subband Spectrum Centroid,MSSC)的語音特征提取新方法。HTK仿真實(shí)驗(yàn)表明,新漢明窗及MSSC語音特征提取新方法與傳統(tǒng)MFCC法比較,低信噪比環(huán)境下的識(shí)別率平均提高了17.13%。
   將上述語音端點(diǎn)檢測算法、語音增強(qiáng)算法和語

7、音特征提取算法集成為一個(gè)ASR前端實(shí)驗(yàn)系統(tǒng)。本文選擇ADI公司的多媒體高性能ADSP-BF533作為嵌入式平臺(tái),將該前端系統(tǒng)進(jìn)行優(yōu)化并成功移植,驗(yàn)證了其在嵌入式平臺(tái)上實(shí)現(xiàn)的可行性。最后,將上述部分研究成果用于移動(dòng)學(xué)習(xí)平臺(tái)原型系統(tǒng)設(shè)計(jì),并進(jìn)一步研究了教學(xué)資源知識(shí)表示技術(shù),提出了一種本體概念相似度計(jì)算新方法;研究了AMR-WB編碼器優(yōu)化技術(shù),提出了一種快速固定碼本搜索方法。該原型系統(tǒng)在中山讀書郎公司的兒童早教機(jī)、學(xué)生掌上電腦和數(shù)碼讀書機(jī)系列

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論