群智感知中語音識別特征提取方法的研究.pdf_第1頁
已閱讀1頁,還剩75頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、大多數(shù)群智感知中的語音識別系統(tǒng)在采集語音信號時所處的環(huán)境越來越復雜,并且對其所部署在的聲學環(huán)境的性質(zhì)存在敏感性,在存在諸如加性噪聲,線性信道失真和混響的情況下,群智感知中的語音識別系統(tǒng)性能急劇惡化。因此,相比于傳統(tǒng)的語音識別系統(tǒng),群智感知中的語音識別系統(tǒng)需要更好的魯棒性和壓縮比。針對群智感知中語音識別系統(tǒng)面臨的這些問題,該文對已有語音識別系統(tǒng)使用的梅爾倒譜系數(shù)(MFCC)進行改進,并把這種改進后的系數(shù)稱之為“功率歸一化倒譜系數(shù)”。

2、>  首先,研究了傳統(tǒng)MFCC的提取算法,分析了該算法每一處理過程的實現(xiàn)原理;補充了MFCC算法構(gòu)成語音識別系統(tǒng)中使用的MFCCs;實現(xiàn)了MFCC的提取,但在實現(xiàn)的過程中,為了降低計算過程中的數(shù)量級對MFCC提取算法提出了猜想,并且對MFCC提取算法進行了補充實驗以驗證我們的猜想。
  其次,針對白噪聲情況下的語音識別系統(tǒng),為了提高語音識別的精度,在語音特征提取的前期處理階段使用基于人耳耳蝸聽覺模型的伽馬通濾波器組代替 MFCC算

3、法中的梅爾濾波器組。
  再次,針對語音識別系統(tǒng)面臨的聲學環(huán)境退化和背景噪聲水平評估問題,為了更加準確地估計聲學環(huán)境惡化且更加容易地刪除緩慢變化的語音分量,在語音特征提取的環(huán)境補償階段首先使用50-120ms的長時幀與短時幀相結(jié)合來分析參數(shù),然后使用“非對稱非線性濾波”估計每幀和每頻帶的聲學背景噪聲水平。
  最后,針對人耳更加關注入射功率包絡的開始而不是該功率包絡下降沿的特性,在語音信號處理塊實現(xiàn)暫時掩蔽。對于輸入信號功率

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論