版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、說話人識別是通過目標說話人語音中攜帶的說話人個性信息來識別說話人的身份,與其它生物信息識別技術比較,它具有系統(tǒng)設備成本低,語音采集方便等優(yōu)點。說話人識別是最新科學成果的綜合應用,它涉及到聲學的多個方面,以及模式識別,神經(jīng)網(wǎng)絡,核函數(shù)等研究的最新成果。在信用卡,門禁,軍用涉密等方面有著廣泛的應用。特別在公安司法領域,說話人識別方法有取代傳統(tǒng)聲紋儀的趨勢。盡管說話人識別不斷在識別特征和識別方法等方面取得進展,但是實驗室獲取的語音與實際應用環(huán)
2、境獲取的語音差異性較大,因此把在實驗室表現(xiàn)良好的說話人識別系統(tǒng)應用到實際環(huán)境,效果依然不夠理想。除了在一些特定場,說話人識別系統(tǒng)要應用到現(xiàn)實生活,仍然還有很長一段路要走。
本文擬從消除倒譜特征中語義信息的影響,利用倒譜特征的時序性,進行說話人模型合成和特征映射,以及建立不同信道間的特征變換等四個方面進行說話人識別系統(tǒng)的研究,主要內(nèi)容有:
實驗表明,盡管GMM作為說話人識別模型理論上可以實現(xiàn)與文本無關的說話人識
3、別,但是訓練和測試時的語音上下文內(nèi)容對識別結(jié)果還是具有很大的影響。當非目標說說話人的識別語音上下文與目標說話人訓練語音上下文較接近時,則用該語音進行目標說話人測試時,錯誤接受的概率會大大提高。由此可知降低語音的語義信息對識別率的影響非常重要。本文提出把語音的上下文信息看作某種噪聲,通過在高斯混合背景模型中嵌入自聯(lián)想神經(jīng)網(wǎng)絡的方法來濾除這種噪聲,神經(jīng)網(wǎng)絡起到數(shù)據(jù)整形的作用,從而增強了目標說話人數(shù)據(jù)的相似性,達到降低說話人語音上下文對說話人
4、識別率影響的目的。
由于GMM方法只能表示征特征向量的空間分布,對于說話人識別這種特征向量具有明顯的時序性的應用并沒有更好的處理。雖然引入差分倒譜對識別率有一定提高,但是差分倒譜對每個說話人向量序列采用相同的差分系數(shù)是不合理的,不同的說話人差分系數(shù)應該是不同的;另外,差分系數(shù)是從數(shù)據(jù)擬合的角度得出的,而不是從增大目標說話人GMM模型的似然概率角度得出的。本文提出了一種嵌入時延神經(jīng)網(wǎng)絡的高斯混合背景模型說話人確認方法來解決上
5、面提到的兩個問題。該方法利用時延神經(jīng)網(wǎng)絡挖掘特征向量集的時序信息,然后把時序信息傳遞給GMM,每個說話人擁有一個屬于自己的神經(jīng)網(wǎng)絡,并且通過極大化GMM似然概率(ML)的方法來訓練時延網(wǎng)絡參數(shù),使時延神經(jīng)網(wǎng)絡挖掘特征向量的時序信息的方式更為合理。
模型合成可以由說話人一個信道下的識別模型獲得另一個信道下的識別模型,而特征映射則把說話人不同信道下的特征向量映射劍一個公共空間,這樣只需為每個目標說話人訓練一個識別模型。基于極大
6、后驗概率方法(MAP)的說話人模型合成和特征映射,變換參數(shù)需要人為指定。我們提出了基于極大似然線性回歸(MLLR)調(diào)整的說話人模型合成和特征映射方法。MLLR調(diào)整首先確定相應模型間線性關系,變換參數(shù)由訓練數(shù)據(jù)確定,并且可以只調(diào)整均值向量。模型合成時,通過訓練可以獲得通用信道背景模型間的MLLR調(diào)整參數(shù);特征映射時,通過訓練可以獲得Root GMM-UBM模型參數(shù)到通用信道背景模型的MLLR調(diào)整參數(shù)。實驗結(jié)果表明,合適選取MLLR回歸類,
7、可以取得比相應MAP調(diào)整方法更好的識別效果。
除了模型合成和特征映射,學者們還提出了各種各樣的解決方法來解決信道誤匹配問題,這些方法適合于不同的信道條件。如倒譜減法適合于平緩變化的信道特性,模型合成和特征映射需要知道語音來自哪個信道,而因子分析由于需要大量語音信號和處理時間使其難以應用,因此需要尋找更為合適的與信道無關的說話人識別方法。基于這個想法,我們提出了一種結(jié)合自聯(lián)想神經(jīng)網(wǎng)絡和GMM的方法,對不同信道間的特征向量進行
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于改進的高斯混合模型的說話人識別的研究.pdf
- 基于自適應高斯混合模型說話人識別的研究.pdf
- 基于混合高斯模型的說話人識別.pdf
- 基于高斯混合模型的說話人識別研究.pdf
- 基于高斯混合模型的說話人識別算法研究.pdf
- 基于高斯混合模型的與文本無關說話人識別的研究.pdf
- 基于高斯混合模型的說話人識別技術研究.pdf
- 基于高斯混合模型的說話人識別系統(tǒng)的研究.pdf
- 基于矢量量化(VQ)和混合高斯模型(GMM)的說話人識別的研究.pdf
- 基于高斯混合模型的語種識別的研究.pdf
- 基于量子遺傳高斯混合模型的說話人識別技術.pdf
- 基于融合特征與高斯混合模型的說話人識別研究.pdf
- 基于改進高斯混合模型的說話人識別方法研究.pdf
- 利用矢量量化(VQ)和混合高斯模型(GMM)的說話人識別的研究.pdf
- 基于神經(jīng)網(wǎng)絡的說話人識別算法研究.pdf
- 基于矢量量化(VQ)和人工神經(jīng)網(wǎng)絡(ANN)的說話人識別的研究.pdf
- 自適應高斯混合模型及說話人識別應用.pdf
- 語音識別中神經(jīng)網(wǎng)絡聲學模型的說話人自適應研究.pdf
- 基于語音混合特征說話人識別的研究.pdf
- 基于多級小波神經(jīng)網(wǎng)絡的模糊說話人識別.pdf
評論
0/150
提交評論