版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、<p> 本科畢業(yè)論文(設(shè)計(jì))</p><p> 論文題目: 利用MATLAB平臺(tái)實(shí)現(xiàn) </p><p> 少量字的語音識(shí)別功能 </p><p> 院 系: 物理系 </p><p> 專 業(yè): 物理學(xué)
2、 </p><p> 姓 名: </p><p> 學(xué) 號(hào): </p><p> 指導(dǎo)教師: </p><p> 2007 年 6 月 19
3、 日</p><p><b> 目 錄</b></p><p><b> 引言4</b></p><p> 1.語音識(shí)別簡(jiǎn)介5</p><p> 1.1語音識(shí)別系統(tǒng)的分類5</p><p> 1.2語音識(shí)別系統(tǒng)的基本構(gòu)成5</p><p
4、> 2.語音識(shí)別參數(shù)6</p><p> 2.1線性預(yù)測(cè)系數(shù)(LPC)6</p><p> 2.2線性預(yù)測(cè)倒譜系數(shù)(LPCC)8</p><p> 2.3 MFCC系數(shù)8</p><p> 2.4參數(shù)計(jì)算流程9</p><p> 3.DTW算法11</p><p>
5、 3.1 DTW算法原理11</p><p> 3.2 DTW的高效算法14</p><p> 4.HMM算法16</p><p> 4.1 HMM的原理16</p><p> 4.2 HMM的前向概率和后向概率17</p><p> 4.3識(shí)別算法——Viterbi解碼19</p>
6、<p> 4.4 baum-welch算法20</p><p> 5.實(shí)驗(yàn)及總結(jié)23</p><p> 5.1 實(shí)驗(yàn)準(zhǔn)備以及步驟23</p><p> 5.2 實(shí)驗(yàn)結(jié)果及討論25</p><p> 5.3 實(shí)驗(yàn)結(jié)論29</p><p><b> 參考文獻(xiàn)30</b&
7、gt;</p><p><b> 致 謝31</b></p><p><b> 引 言</b></p><p> 自上世紀(jì)80年代開始,語音識(shí)別技術(shù)的研究進(jìn)入了一個(gè)蓬勃發(fā)展的時(shí)期,一些商用系統(tǒng)也從實(shí)驗(yàn)室進(jìn)入市場(chǎng)。然而,在實(shí)際的應(yīng)用中,由于各種干擾因素導(dǎo)致的測(cè)試條件與訓(xùn)練環(huán)境的不匹配,系統(tǒng)的性能往往會(huì)收到極大的
8、影響。因此提高語音識(shí)別系統(tǒng)的性能就成為了語音識(shí)別技術(shù)真正走向?qū)嵱没年P(guān)鍵課題。</p><p> 語音識(shí)別是以聲音作為研究對(duì)象它是語音信號(hào)處理的一個(gè)重要研究方向,是模式識(shí)別的一個(gè)分支涉及到生理學(xué)、心理學(xué)、語言學(xué)、計(jì)算機(jī)科學(xué)以及信號(hào)處理等諸多領(lǐng)域,甚至還涉及到人的體態(tài)語言(如人在說話時(shí)的表情、手勢(shì)等行為動(dòng)作可幫助對(duì)方理解),其最終目標(biāo)是實(shí)現(xiàn)人與機(jī)器進(jìn)行自然語言通信。本文研究了漢語語音識(shí)別技術(shù)及其實(shí)現(xiàn)方法。論文首先
9、分析了語音信號(hào)預(yù)處理問題。對(duì)MFCC倒譜系數(shù)在語音識(shí)別中的運(yùn)用做了詳細(xì)介紹。其次研究了基于DTW的語音識(shí)別系統(tǒng),針對(duì)DTW算法中系統(tǒng)識(shí)別性能過分依賴于端點(diǎn)檢測(cè)、動(dòng)態(tài)規(guī)劃的計(jì)算量太大等缺陷,分別提出了快速DTW算法和端點(diǎn)松動(dòng)的DTW算法,仿真結(jié)果比較理想。繼而研究了基于HMM的語音識(shí)別系統(tǒng)。針對(duì)HMM在實(shí)際應(yīng)用中的優(yōu)化計(jì)算問題,包括初始模型選取,定標(biāo)等進(jìn)行了深入的分析與探討。針對(duì)傳統(tǒng)定標(biāo)仍能溢出的問題,給出了無溢出的參數(shù)重估公式。<
10、/p><p> 第一章 語音識(shí)別簡(jiǎn)介</p><p> 1.1語音識(shí)別系統(tǒng)的分類</p><p> 語音識(shí)別是近年來十分活躍的一個(gè)研究領(lǐng)域。在不遠(yuǎn)的將來,語音識(shí)別技術(shù)有可能作為一種重要的人機(jī)交互手段,輔助甚至取代傳統(tǒng)的鍵盤、鼠標(biāo)等輸入設(shè)備,在個(gè)人計(jì)算機(jī)上進(jìn)行文字錄入和操作控制。本文介紹了語音識(shí)別的基本流程、所用到的語音參數(shù)算法、語音識(shí)別的訓(xùn)練算法和識(shí)別算法做初步的
11、探究,主要運(yùn)用了特定人孤立詞識(shí)別的DTW算法和非特定人識(shí)別的連續(xù)HMM算法的MATLAB識(shí)別系統(tǒng)。</p><p> 語音識(shí)別按說話人的講話方式可分為孤立詞(Isolated Word)識(shí)別、連接詞(Connected Word)識(shí)別和連續(xù)語音(Continuous Speech)識(shí)別。孤立詞識(shí)別是指說話人每次只說一個(gè)詞或短語,每個(gè)詞或短語在詞匯表中都算作一個(gè)詞條,一般用在語音電話撥號(hào)系統(tǒng)中。連接詞語音識(shí)別支持
12、一個(gè)小的語法網(wǎng)絡(luò),其內(nèi)部形成一個(gè)狀態(tài)機(jī),可以實(shí)現(xiàn)簡(jiǎn)單的家用電器的控制,而復(fù)雜的連接詞語音識(shí)別系統(tǒng)可以用于電話語音查詢、航空定票等系統(tǒng)。連續(xù)語音識(shí)別是指對(duì)說話人以日常自然的方式發(fā)音,通常特指用于語音錄入的聽寫機(jī)。顯然,連續(xù)非特定人語音識(shí)別的難度要大得多,因?yàn)椴粌H有說話人口音的問題,還有協(xié)同發(fā)音、斷字?jǐn)嗑?、搜索等問題,除了考慮語音的聲學(xué)模型外還要涉及到語言模型,如構(gòu)詞法、文法等。</p><p> 從識(shí)別對(duì)象的類型
13、來看,語音識(shí)別可以分為特定人(Speaker Dependent)語音識(shí)別和非特定人(Speaker Independent)語音識(shí)別。特定人是指只針對(duì)一個(gè)用戶的語音識(shí)別,非特定人則可用于不同的用戶。實(shí)際上,非特定人語音識(shí)別的初始識(shí)別率往往都比較低,一般都要求用戶花一定的時(shí)間對(duì)系統(tǒng)進(jìn)行訓(xùn)練,將系統(tǒng)的參數(shù)進(jìn)行一定的自適應(yīng)調(diào)整,才能使識(shí)別率達(dá)到滿意的程度。</p><p> 非特定人大詞表連續(xù)語音識(shí)別是近幾年研究的
14、重點(diǎn),也是研究的難點(diǎn)。目前的連續(xù)語音識(shí)別大多是基于HMM(隱馬爾可夫模型)框架,并將聲學(xué)、語言學(xué)的知識(shí)統(tǒng)一引入來改善這個(gè)框架,其硬件平臺(tái)通常是功能強(qiáng)大的工作站或PC機(jī)。</p><p> 1.2語音識(shí)別系統(tǒng)的基本構(gòu)成</p><p> 語音識(shí)別系統(tǒng)的典型實(shí)現(xiàn)方案為:輸入的模擬語音信號(hào)首先要進(jìn)行預(yù)處理,包括預(yù)濾波、采樣和量化、加窗、端點(diǎn)檢測(cè)、預(yù)加重等。語音信號(hào)經(jīng)預(yù)處理后,接下來很重要的一
15、環(huán)就是特征參數(shù)提取。對(duì)特征參數(shù)的要求是:</p><p> 提取的特征參數(shù)能有效地代表語音特征,具有很好的區(qū)分性。</p><p> 各階參數(shù)之間有良好的獨(dú)立性。</p><p> 特征參數(shù)要計(jì)算方便,最好有高效的計(jì)算方法,以保證語音識(shí)別的實(shí)時(shí)實(shí)現(xiàn)。</p><p> 在訓(xùn)練階段,將特征參數(shù)進(jìn)行一定的處理之后,為每個(gè)詞條得到一個(gè)模型,
16、保存為模版庫(kù)。在識(shí)別階段,語音喜好經(jīng)過相同的通道得到語音參數(shù),生成測(cè)試模版,與參考模版進(jìn)行匹配,將匹配分?jǐn)?shù)最高的參考模版作為識(shí)別結(jié)果。同時(shí)還可以在很多先驗(yàn)知識(shí)的幫助下,提高識(shí)別的準(zhǔn)確率。</p><p> 第二章 語音識(shí)別的參數(shù)</p><p> 2.1 線性預(yù)測(cè)系數(shù)</p><p> 語音信號(hào)是一種典型的時(shí)變信號(hào),然而如果把觀察時(shí)間縮短到十毫秒至幾十毫秒,則
17、可以得到一系列近似穩(wěn)定的信號(hào)。人的發(fā)音器官可以用若干段前后連接的聲管進(jìn)行模擬,這就是所謂的聲管模型。下圖為語音產(chǎn)生的生理結(jié)構(gòu)示意圖:</p><p> 圖2-1 語音產(chǎn)生的生理結(jié)構(gòu)示意圖[1]</p><p> 由于發(fā)音器官不可能毫無規(guī)律地快速變化,因此語音信號(hào)是準(zhǔn)穩(wěn)定的(quasi steady)。全極點(diǎn)線性預(yù)測(cè)模型(LPC)可以對(duì)聲管模型進(jìn)行很好的描述,這里信號(hào)的激勵(lì)源是由肺部氣
18、流的沖擊引起的,聲帶可以有周期振動(dòng)也可以不振動(dòng),分別對(duì)應(yīng)濁音(Vowel)和清音(Consonant),而每段聲管則對(duì)應(yīng)一個(gè)LPC模型的極點(diǎn)。一般情況下,極點(diǎn)的個(gè)數(shù)在12~16之間,就可以足夠清晰地描述語音信號(hào)的特征了。LPC是語音分析的重要手段,它能很好地進(jìn)行譜估計(jì),即可作為語音特征的參數(shù)。因此僅用12個(gè)LPC系數(shù)就能很好地表示復(fù)雜語音信號(hào)的特征,這就大大降低了信號(hào)的冗余度并有效地減少了計(jì)算量和存儲(chǔ)量,使之成為語音識(shí)別和語音壓縮的基礎(chǔ)
19、。下圖為以聲管模型為基礎(chǔ)的LPC模型:</p><p> 圖2-2 以聲管模型為基礎(chǔ)的LPC模型</p><p> 由: </p><p> 該式表示p個(gè)方程構(gòu)成的方程組,未知數(shù)為p個(gè)。求解該方程組,就可以得到系統(tǒng)的線性預(yù)測(cè)系數(shù)。由基于自相關(guān)的遞推求解公式求解,也就是所謂的Durbi
20、n算法得:</p><p> ………………………………………………2.1</p><p> ……………………………..2.2</p><p> …………………………………………………...2.3</p><p> …………………………..2.4</p><p> ………………………………………2.5</
21、p><p> 公式中,上標(biāo)表示第次迭代,每次迭代只計(jì)算和更新 直到時(shí),結(jié)束迭代。</p><p> 在MATLAB中利用lpc函數(shù)[2]計(jì)算LPC系數(shù),其語法為:</p><p> a = lpc(x,n);</p><p> 這里x為一幀語音信號(hào),n為計(jì)算LPC參數(shù)的階數(shù)。通常x為240點(diǎn)或256點(diǎn)的數(shù)據(jù),n取10~12,對(duì)語音識(shí)別來說
22、就已經(jīng)足夠。</p><p> 2.2 線性預(yù)測(cè)倒譜系數(shù)</p><p> 在語音識(shí)別系統(tǒng)中,很少直接使用LPC系數(shù),而是由LPC系數(shù)推導(dǎo)出另一種參數(shù):線性預(yù)測(cè)倒譜系數(shù)(LPCC)。倒譜實(shí)際上是一種同態(tài)信號(hào)處理方法,標(biāo)準(zhǔn)的倒譜系數(shù)計(jì)算流程需要進(jìn)行FFT變換[3],對(duì)數(shù)操作和相位校正等步驟,運(yùn)算比較復(fù)雜。在實(shí)際運(yùn)作中大多數(shù)語音識(shí)別系統(tǒng)都會(huì)采用倒譜參數(shù)來作為有關(guān)距離的度量。LPC 倒譜系數(shù)
23、是描述說話人聲道特性的,廣泛應(yīng)用于聲紋識(shí)別。在實(shí)際計(jì)算中,當(dāng)序列x(n)為最小相位的情況下,可以利用序列x(n)及其倒譜系數(shù)c(n)的遞推關(guān)系來簡(jiǎn)化計(jì)算。</p><p> 序列x(n)及其復(fù)倒譜系數(shù)c(n)的遞推公式如下:</p><p> ……...………...….2.6</p><p> LPCC參數(shù)是一種非常重要的參數(shù),它不是由原始信號(hào)x(n)得到,而
24、是由LPC系數(shù)得到的。由2.6式可得LPC到LPCC的直接遞推關(guān)系。</p><p> ……………………………………………..2.7</p><p> ……………………2.8</p><p> ………………………...…..2.9</p><p> 2.3 MFCC系數(shù)</p><p> LPC模型是基于發(fā)音
25、模型建立的,LPCC系數(shù)也是一種基于合成的參數(shù)。這種參數(shù)沒有充分利用人耳的聽覺特性。實(shí)際上,人的聽覺系統(tǒng)是一個(gè)特殊的非線性系統(tǒng),它響應(yīng)不同頻率信號(hào)的靈敏度是不同的,基本上是一個(gè)對(duì)數(shù)的關(guān)系。近年來,一種能夠比較充分利用人耳這種特殊的感知特性的參數(shù)得到了廣泛的應(yīng)用,這就是Mel尺度倒譜參數(shù)(Mel-scaled Cepstrum Coefficient),或稱Mel頻率倒譜系數(shù),簡(jiǎn)稱為MFCC。大量的研究表明,MFCC參數(shù)能夠比LPCC參數(shù)
26、更好地提高系統(tǒng)的識(shí)別性能。從目前使用的情況來看,在大詞匯量語音識(shí)別應(yīng)用中已逐漸取代原本常用的線性預(yù)測(cè)編碼導(dǎo)出的倒頻譜參數(shù),原因是它考慮了人類發(fā)聲與接收聲音的特性,具有更好的魯棒性。由于語音信號(hào)在時(shí)域上的變化快速而不穩(wěn)定,所以通常都將它轉(zhuǎn)換到頻域上來觀察,此時(shí)它的頻譜會(huì)隨著時(shí)間作緩慢的變化。所以通常將加窗后的幀經(jīng)過快速傅立葉變換(FFT),求出每幀的頻譜參數(shù)。再將每幀的頻譜參數(shù)通過一組N 個(gè)( N 一般為20 ~ 30 個(gè))三角形帶通濾波
27、器所組成的Mel頻率濾波器,將每個(gè)頻帶的輸出取對(duì)數(shù),求出每一個(gè)輸出的對(duì)數(shù)能量(log energy)</p><p> MFCC參數(shù)的計(jì)算是以“bark”為其頻率基準(zhǔn)的,它和線性頻率的轉(zhuǎn)換關(guān)系是:</p><p> ……………………………….2.10</p><p> MFCC參數(shù)也是按幀計(jì)算的。首先要通過FFT得到該幀信號(hào)的功率譜,轉(zhuǎn)換為Mel頻率下的功率譜
28、。這需要在計(jì)算之前先在語音的頻譜范圍內(nèi)設(shè)置若干個(gè)帶通濾波器:</p><p><b> ………2.11</b></p><p> MFCC參數(shù)的計(jì)算通常采用如下的流程:</p><p> ?。?)首先確定每一幀語音采樣序列的點(diǎn)數(shù)。對(duì)每幀序列進(jìn)行預(yù)加重處理后再經(jīng)過離散FFT變換,取模的平方得到離散功率譜。</p><p&g
29、t; ?。?)計(jì)算通過M個(gè)后所得的功率值,即計(jì)算和在各離散頻率點(diǎn)上乘積之和,得到M個(gè)參數(shù),。</p><p> ?。?)計(jì)算的自然對(duì)數(shù),得到,。</p><p> ?。?)對(duì)計(jì)算其離散余弦變換,得到,。</p><p> ?。?)舍去代表直流成分的,取作為MFCC參數(shù)。</p><p> MATLAB中計(jì)算mfcc參數(shù)的函數(shù)為melceps
30、t.m,其中調(diào)用了函數(shù)melbankm.m,用來計(jì)算M個(gè)濾波器的系數(shù)。</p><p> 2.4 完整的參數(shù)計(jì)算流程</p><p><b> 特征提取方法:</b></p><p> 特征的選取取決于具體的系統(tǒng),下面的特征是有代表性的:</p><p><b> ?、俜龋ɑ蚬β剩?lt;/b>&
31、lt;/p><p><b> ?、谶^零率</b></p><p><b> ?、叟R界帶特征矢量</b></p><p> ?、芫€形預(yù)測(cè)系數(shù)特征矢量(LPC)</p><p> ⑤LPC倒譜特征矢量(LPCC)</p><p> ?、?Mel倒譜系數(shù)(MFCC)</p>
32、;<p> ?、咔叭齻€(gè)共振峰F1,F2,F3</p><p><b> 具體步驟分4步:</b></p><p><b> 1.端點(diǎn)檢測(cè)</b></p><p> 所謂端點(diǎn)檢測(cè),就是在實(shí)時(shí)輸入的聲音信號(hào)中,區(qū)分背景噪聲和環(huán)境噪聲,準(zhǔn)確地判斷出聲音信號(hào)的開始點(diǎn)和結(jié)束點(diǎn)。這一過程應(yīng)由特定的算法自動(dòng)完成,通常
33、利用短時(shí)能量來檢測(cè)濁音,用過零率來檢測(cè)清音,兩者配合實(shí)現(xiàn)可靠的端點(diǎn)檢測(cè)。端點(diǎn)檢測(cè)算法常用的是由語音能量和過零率組合的有雙門限法,以及短時(shí)能量和過零率的乘積構(gòu)成的能頻值法。</p><p><b> 預(yù)加重濾波器</b></p><p> 在語音參數(shù)計(jì)算之前,一般要將其通過一個(gè)預(yù)加重濾波器。</p><p><b> 倒譜提升窗口
34、</b></p><p> 在為每幀數(shù)據(jù)計(jì)算出階MFCC參數(shù)后,通常還要為這個(gè)系數(shù)分別乘以不同的權(quán)系數(shù),實(shí)際上是一個(gè)短的窗口:</p><p> ……………………………………………..2.12</p><p> ……………………2.13</p><p><b> 差分倒譜系數(shù)</b></p>
35、;<p> 標(biāo)準(zhǔn)的MFCC參數(shù)只反映了語音參數(shù)的靜態(tài)特性,而人耳對(duì)語音的動(dòng)態(tài)特征更為敏感,通常用差分倒譜參數(shù)來描述這種動(dòng)態(tài)特性。</p><p> 差分參數(shù)的計(jì)算采用下面的公式:</p><p> …………………….2.14</p><p> 這里c和d都表示一幀語音參數(shù),k為常數(shù),通常取2,這時(shí)差分參數(shù)就稱為當(dāng)前幀的前兩幀和后兩幀參數(shù)的線性組
36、合。</p><p><b> 第三章 DTW算法</b></p><p> 3.1 DTW算法原理</p><p> 在孤立詞語音識(shí)別中,最為簡(jiǎn)單有效的方法是采用DTW(Dynamic Time Warping,動(dòng)態(tài)時(shí)間彎折)算法,該算法基于動(dòng)態(tài)規(guī)劃(DP)的思想,解決了發(fā)音長(zhǎng)短不一的模板匹配問題,是語音識(shí)別中出現(xiàn)較早、較為經(jīng)典的一種算
37、法。用于孤立詞識(shí)別,DTW算法與HMM算法在相同的環(huán)境條件下,識(shí)別效果相差不大,但HMM算法要復(fù)雜得多,主要體現(xiàn)在HMM算法在訓(xùn)練階段需要提供大量的語音數(shù)據(jù),通過反復(fù)計(jì)算才能得到模型參數(shù),而DTW算法的訓(xùn)練中幾乎不需要額外的計(jì)算。所以在孤立詞語音識(shí)別中,DTW算法仍得到廣泛的應(yīng)用。</p><p> 在訓(xùn)練和建立模板階段以及在識(shí)別階段,都采用端點(diǎn)檢測(cè)算法確定語音的起點(diǎn)和終點(diǎn)。已存入模板庫(kù)的各個(gè)詞條稱為參考模板,
38、一個(gè)參考模板可表示為,m為訓(xùn)練語音幀的時(shí)序標(biāo)號(hào),m=1為起點(diǎn)語音幀,m=M為終點(diǎn)語音幀,因此為該模板所包含的語音幀總數(shù),為第幀的語音特征矢量。所要識(shí)別的一個(gè)輸入詞條語音稱為測(cè)試模板,可表示為,為測(cè)試語音幀的時(shí)序標(biāo)號(hào),n=1為起點(diǎn)語音幀,n=N為終點(diǎn)語音幀,因此N為該模板所包含的語音幀總數(shù),T(n)為第n幀的語音特征矢量。參考模板與測(cè)試模板一般采用相同類型的特征矢量(如MFCC系數(shù))、相同的幀長(zhǎng)、相同的窗函數(shù)和相同的幀移。測(cè)試和參考模板分
39、別用T和R表示,為了比較它們之間的相似度,可以計(jì)算它們之間的距離D[T,R],距離越小則相似度越高。為了計(jì)算這一失真距離,應(yīng)從T和R中各個(gè)對(duì)應(yīng)幀之間的距離算起。設(shè)n和m分別是T和R中任意選擇的幀號(hào),d[T(n),R(m)]表示這兩幀之間的距離。距離函數(shù)取決于實(shí)際采用的距離度量,在DTW算法中通常采用歐氏距離。</p><p> 若N=M則可以直接計(jì)算,否則要考慮將T(n)和R(m)對(duì)齊。對(duì)齊可以采用線性擴(kuò)張的方
40、法,如果N<M可以將T線性映射為一個(gè)M幀的序列,再計(jì)算它與之間的距離。但是這樣的計(jì)算沒有考慮到語音中各個(gè)段在不同的情況下的持續(xù)時(shí)間會(huì)產(chǎn)生或長(zhǎng)或短的變化,因此識(shí)別效果不可能最佳。因而更多地是采用動(dòng)態(tài)規(guī)劃(DP)的方法。</p><p> 如果把測(cè)試模板的各個(gè)幀號(hào)n=1~N在一個(gè)二維直角坐標(biāo)系中的橫軸上標(biāo)出,把參考模板的各幀號(hào)m=1~M在縱軸上標(biāo)出,通過這些表示幀號(hào)的整數(shù)坐標(biāo)畫出一些縱橫線即可形成一個(gè)網(wǎng)格,網(wǎng)
41、格中的每一個(gè)交叉點(diǎn)(n,m)表示測(cè)試模式中某一幀與訓(xùn)練模式中某一幀的交匯點(diǎn)。DP算法可以歸結(jié)為尋找一條通過此網(wǎng)格中若干格點(diǎn)的路徑,路徑通過的格點(diǎn)即為測(cè)試和參考模板中進(jìn)行距離計(jì)算的幀號(hào)。路徑不是隨意選擇的,首先任何一種語音的發(fā)音快慢都有可能變化,但是其各部分的先后次序不可能改變,因此所選的路徑必定是從左下角出發(fā),在右上角結(jié)束</p><p> 圖3-1 DTW算法路徑原理示意圖</p><p
42、> 為了描述這條路徑,假設(shè)路徑通過的所有格點(diǎn)依次為其中=(1,1),=(N,M)。路徑可以用函數(shù)描述,其中,。那么下一個(gè)通過的格點(diǎn)只可能是下列三中情況之一:</p><p> …………………………..3.1</p><p> 用表示上述三個(gè)約束條件。求最佳路徑的問題可以歸結(jié)為滿足約束條件時(shí),求最佳路徑函數(shù),使得沿路徑的積累距離達(dá)到最小值,即:</p><p&
43、gt;<b> ………...3.2</b></p><p> 搜索該路徑的方法如下:搜索從點(diǎn)出發(fā),可以展開若干條滿足的路徑,假設(shè)可計(jì)算每條路徑達(dá)到點(diǎn)時(shí)的總的積累距離,具有最小累積距離者即為最佳路徑。易于證明,限定范圍內(nèi)的任一格點(diǎn)只可能有一條搜索路徑通過。對(duì)于,其可達(dá)到該格點(diǎn)的前一個(gè)格點(diǎn)只可能是、和,那么一定選擇這3個(gè)距離中的最小者所對(duì)應(yīng)的格點(diǎn)作為其前續(xù)格點(diǎn),若用代表此格點(diǎn),并將通過該格點(diǎn)
44、之路徑延伸而通過,這時(shí)此路徑的積累距離為:</p><p> …………….....3.3</p><p><b> ….3.4</b></p><p> 這樣可以從=(1,1)出發(fā)搜索,再搜索……,對(duì)每一個(gè)都存儲(chǔ)相應(yīng)的前一格點(diǎn)及相應(yīng)的幀匹配距離。搜索到時(shí),只保留一條最佳路徑。這便是DTW算法。[5]</p><p>
45、; 3.2 DTW的高效算法</p><p> 由于匹配過程中限定了彎折的斜率,因此許多格點(diǎn)實(shí)際上是到達(dá)不了的,如下圖所示。因此菱形之外的格點(diǎn)對(duì)應(yīng)的幀匹配距離是不需要計(jì)算的。另外也沒有必要保存所有的幀匹配距離矩陣和累積距離矩陣,因?yàn)槊恳涣懈鞲顸c(diǎn)上的匹配計(jì)算只用到了前一列的三個(gè)網(wǎng)格。充分利用這兩個(gè)特點(diǎn)可以減少計(jì)算量和存儲(chǔ)空間的需求。</p><p> 如圖所示,把實(shí)際的動(dòng)態(tài)彎折分為三段
46、,,其中:</p><p> ……………………………3.5</p><p> 圖3-2 DTW高效路徑示意圖</p><p> 和都取最相近的整數(shù)。由此也得出對(duì)M和N長(zhǎng)度的限制條件:</p><p> ………………………………..3.6</p><p> 當(dāng)不滿足以上條件時(shí),認(rèn)為兩者差別實(shí)在太大,無法進(jìn)行動(dòng)
47、態(tài)彎折匹配。</p><p> 在X軸上的每一幀不再需要與Y軸上的每一幀進(jìn)行比較,而只是與Y軸上間的幀進(jìn)行比較,和的計(jì)算如下式:</p><p> ................................3.7</p><p> ………………….3.8</p><p> 也可能會(huì)出現(xiàn)的情況,此時(shí)彎折匹配的三段為。</p&
48、gt;<p> 對(duì)于X軸上每前進(jìn)一幀,雖然所要比較的Y軸上的幀數(shù)不同,但彎折特性是一樣的,累積距離的更新都是用下式實(shí)現(xiàn)的:</p><p><b> ……..3.9</b></p><p> 由于X軸上每前進(jìn)一幀,只需要用到前一列的累積距離,所以只需要兩個(gè)列矢量D和d分別保存前一列的累積距離和計(jì)算當(dāng)前列的累積距離,而不用保存整個(gè)距離矩陣。每前進(jìn)一幀
49、都進(jìn)行更新,即按上式利用前一列的累積距離D和當(dāng)前列的所有幀匹配距離d(x,y),求出當(dāng)前幀的累積距離,保存于矢量d中,再把新的距離d賦值給D,作為新的累積距離,供下一列使用。這樣一直前進(jìn)到X軸上最后一列,矢量D的第M個(gè)元素即為兩個(gè)模板動(dòng)態(tài)彎折的匹配距離。</p><p> 圖3-3 DTW改進(jìn)算法模型[6]</p><p> 第四章 非特定人語音識(shí)別算法——HMM</p>
50、<p> 4.1 HMM的原理</p><p><b> HMM基本概念</b></p><p> HMM,即隱馬爾科夫模型(Hidden Markov Model),是在Markov鏈的基礎(chǔ)之上發(fā)展起來的。由于實(shí)際問題比Markov鏈模型所描述的更為復(fù)雜,觀察到的事件并不是與狀態(tài)一一對(duì)應(yīng),而是通過一組概率分布相聯(lián)系,這樣的模型就稱為HMM。它是一
51、個(gè)雙重隨機(jī)過程,其中之一是Markov鏈,這是基本隨機(jī)過程,它描述狀態(tài)的轉(zhuǎn)移。另一個(gè)隨機(jī)過程描述狀態(tài)和觀察值之間的統(tǒng)計(jì)對(duì)應(yīng)關(guān)系,即站在觀察者的角度,只能看到觀察值,不能直接看到狀態(tài),而是通過一個(gè)隨機(jī)過程去感知狀態(tài)的存在及其特性。</p><p> 一個(gè)HMM模型由若干個(gè)狀態(tài)組成,隨著時(shí)間的變化,各個(gè)狀態(tài)之間可以發(fā)生轉(zhuǎn)移,也可以在一個(gè)狀態(tài)內(nèi)駐留。每個(gè)觀察向量對(duì)不同的狀態(tài)都有相應(yīng)的輸出頻率。[7]以一個(gè)包含四個(gè)狀態(tài)
52、為例,狀態(tài)之間或狀態(tài)自身的轉(zhuǎn)移概率用表示,輸入觀察序列為。每個(gè)觀察序列是一幀MFCC參數(shù)。在這個(gè)模型中,序列是可觀測(cè)的輸入序列,稱為觀察序列,而每一時(shí)刻所處的狀態(tài)卻是隱含的。下表為HMM模型的各參數(shù)及其說明[8]:</p><p> 其中輸出概率密度函數(shù)中參數(shù)描述如下表所示。</p><p> 權(quán)系數(shù)滿足下面的條件</p><p> ……………………………4.
53、1</p><p> 這種連續(xù)混合高斯HMM通常簡(jiǎn)稱為CHMM。對(duì)于每一個(gè)狀態(tài),都用若干個(gè)正態(tài)高斯概率密度函數(shù)(簡(jiǎn)稱為pdf)的線性組合來表示,每個(gè)pdf有各自的均值矢量和協(xié)方差矩陣,這些都是通過對(duì)大量的MFCC參數(shù)進(jìn)行統(tǒng)計(jì)得到的。</p><p> 對(duì)于HMM模型,有三個(gè)基本問題需要解決:</p><p> ?。?)給定觀察序列和HMM模型計(jì)算觀察斜率對(duì)HMM
54、模型的輸出概率。</p><p> ?。?)給定觀察序列和HMM模型確定一個(gè)最優(yōu)的狀態(tài)轉(zhuǎn)移序列。</p><p><b> ?。?)調(diào)整使最大。</b></p><p> 4.2 前向概率和后向概率——HMM的輸出概率計(jì)算</p><p> 1.HMM輸出概率的計(jì)算</p><p> 給定觀
55、察序列和HMM模型,如果已知狀態(tài)轉(zhuǎn)移序列,則有:</p><p><b> …...4.2</b></p><p> HMM模型輸出序列q的概率為:</p><p> ……………….4.3</p><p> 對(duì)所有可能的狀態(tài)轉(zhuǎn)移序列q,模型輸出觀察序列O的概率[9]。由全概率公式可得:</p>&l
56、t;p><b> ….4.4</b></p><p> 該式大約需要次計(jì)算,這在實(shí)際中是無法承受的。為了降低計(jì)算復(fù)雜度,可以采用前向和后向算法。</p><p> 2.HMM的前向概率和后向概率</p><p> 首先定義HMM的前向概率為:</p><p> ………………………...4.5</p&
57、gt;<p> 表示給定HMM模型參數(shù),部分觀察序列在t時(shí)刻處于狀態(tài)的概率。那么有:</p><p><b> 初始化:</b></p><p> …………………………4.6</p><p><b> 遞歸:</b></p><p> …………...4.7</p>
58、<p><b> 終結(jié):</b></p><p> ………………………………4.8</p><p> 與前向概率相對(duì)應(yīng),還有后向概率。定義后向概率為:</p><p> ……………………....4.9</p><p> 表示HMM模型參數(shù),觀察序列在t時(shí)刻處于狀態(tài)i,系統(tǒng)輸出部分觀察序列的概率。&
59、lt;/p><p> 后向概率也有類似的遞推公式計(jì)算:</p><p><b> a) 初始化:</b></p><p> ……………………………4.10</p><p><b> 遞歸:</b></p><p><b> ………….4.11</b>
60、;</p><p><b> 終結(jié):</b></p><p> 前向概率和后向概率的遞推關(guān)系由下圖說明</p><p> 圖4-1 前向概率和后向概率示意圖</p><p> 3.利用前向概率和后向概率計(jì)算輸出概率</p><p> 前向概率公式和后向概率公式巧妙地將整個(gè)觀察序列對(duì)HMM
61、模型的輸出概率分成兩個(gè)部分觀察序列的輸出概率的乘積,而且它們各自都有相應(yīng)的遞推公式,可以大大簡(jiǎn)化計(jì)算[10]。經(jīng)過分析,可以得到下面的輸出概率計(jì)算公式:</p><p> ………………4.12</p><p> 實(shí)際上,這就是HMM三個(gè)基本問題中第一個(gè)問題的解答。它的另一種常用的形式是:</p><p> …………..4.13</p><p
62、> 實(shí)際計(jì)算中首先計(jì)算出對(duì)于每個(gè)t和每個(gè)狀態(tài)i的前向概率和后向概率,然后套用上面的公式,計(jì)算出該觀察序列對(duì)模型的輸出概率。這兩個(gè)公式也稱為全概率公式。</p><p> 4.3 識(shí)別算法——Viterbi解碼</p><p> Viterbi算法,不僅可以找到一條足夠好的狀態(tài)轉(zhuǎn)移路徑,還可以得到該路徑所對(duì)應(yīng)的輸出概率。同時(shí),用Viterbi算法計(jì)算輸出概率所需要的計(jì)算量要比全概
63、率公式的計(jì)算量小很多。</p><p> 定義為時(shí)刻t時(shí)沿一條路徑,且,產(chǎn)生出的最大概率,即有</p><p> ……………..4.14</p><p> Viterbi算法的遞推形式如下</p><p><b> 初始化</b></p><p> ………………………….4.15<
64、/p><p> …………………………………...4.16</p><p><b> 遞歸</b></p><p> …………..4.17</p><p> ..................4.18</p><p><b> 終結(jié)</b></p><
65、;p> ………………………………4.19</p><p> …………………………..4.20</p><p><b> 狀態(tài)序列求?。?lt;/b></p><p> ……………….4.21</p><p> 這里,為t時(shí)刻第i狀態(tài)的累積輸出概率,為t時(shí)刻第i狀態(tài)的前續(xù)狀態(tài)號(hào),為最優(yōu)狀態(tài)序列中t時(shí)刻所處的狀態(tài),
66、為最終的輸出概率。</p><p> 對(duì)語音處理應(yīng)用而言,動(dòng)態(tài)范圍很大,或者說不同的Q使的值差別很大,而事實(shí)上是中舉足輕重的唯一成分,因此,常常等價(jià)地使用和,那么,Viterbi算法也能用來計(jì)算。</p><p> 4.4 Baum-Welch 算法</p><p> 這個(gè)算法實(shí)際上是解決HMM訓(xùn)練,即HMM參數(shù)估計(jì)問題,或者說,給定一個(gè)觀察值序列,該算法能確
67、定一個(gè),使最大。</p><p> 由前向變量和后向變量的定義,有:</p><p> …………..4.22</p><p> 這里,求取,使最大是一個(gè)泛函極值問題。但是由于給定的訓(xùn)練序列有限,因而不存在一個(gè)最佳的方法來估計(jì)。在這種情況下,Baum-Welch算法利用遞歸的思想,使局部極大,最后得到模型參數(shù)。</p><p> 定義為
68、給頂訓(xùn)練序列O和模型時(shí),時(shí)刻t時(shí)Markov鏈處于狀態(tài)和時(shí)刻t+1為狀態(tài)的概率,即</p><p> …………………………4.23</p><p><b> 可以推導(dǎo)出:</b></p><p> …………………4.24</p><p> 那么,時(shí)刻t時(shí)Markov鏈處于狀態(tài)的概率為:</p>&l
69、t;p> …………….…………4.25</p><p> 因此,表示從狀態(tài)轉(zhuǎn)移到狀態(tài)的次數(shù)的期望值。由此,導(dǎo)出了Baum-Welch算法的重估公式[11](reestimation):</p><p> ..…………………………………..4.26</p><p> ……………… 4.27</p><p> …………….4.28
70、</p><p><b> 試推導(dǎo)該重估公式:</b></p><p> 引理:設(shè)為正實(shí)數(shù),為非負(fù)實(shí)數(shù),即,那么由對(duì)數(shù)函數(shù)的凹特性有如下結(jié)論:</p><p> ……..……….………..4.29</p><p> ………………….………..4.30</p><p> ..……………4.
71、31</p><p> 此處所有求和均是從1到S。</p><p><b> 定義輔助函數(shù)</b></p><p> ...……………4.32</p><p> 其中,為原來的模型,為新求取的模型,O為訓(xùn)練用觀察值序列,,S為某個(gè)狀態(tài)序列,那么,由引理易推出下面的定理[12]:</p><p&
72、gt; 如果,那么。…………………..……..4.33</p><p> 該定理構(gòu)成了重估公式的理論基礎(chǔ):對(duì)輔助函數(shù),重要能找到,使達(dá)到最大值,那么就能保證,從而使,這樣,新得到的模型在表示訓(xùn)練序列O方面就比原來的模型要好。一直重復(fù)這個(gè)過程,直到某個(gè)收斂點(diǎn),就可以得到根據(jù)訓(xùn)練序列O估計(jì)出的結(jié)果模型,而使最大而求取參數(shù)的公式就稱之為重估公式。不同的,其參數(shù),A和B就不同,重估公式的具體形式也不同[13]。<
73、;/p><p><b> 第五章 實(shí)驗(yàn)及總結(jié)</b></p><p> 5.1 實(shí)驗(yàn)準(zhǔn)備及步驟</p><p> 實(shí)驗(yàn)平臺(tái)為Windows平臺(tái)上,采用Matlab數(shù)學(xué)工具通過完成程序而實(shí)現(xiàn)的。本實(shí)驗(yàn)主要采用DTW算法實(shí)現(xiàn)語音識(shí)別。</p><p> 首先,我們使用windows自帶的錄音器,分別由我和合作者黃博錄入了
74、4組數(shù)據(jù)(1人兩組),每組8個(gè)音頻文件,本別為從“一”到“八”的漢語發(fā)音。其中一組為參考模板,另外一組為測(cè)試模板。</p><p> 首先用wavread函數(shù)讀入wav文件,用mfcc函數(shù)獲得其MFCC參數(shù),用vad函數(shù)對(duì)其進(jìn)行端點(diǎn)檢測(cè),并保存語音部分的MFCC參數(shù)到參考模板的機(jī)構(gòu)數(shù)組ref(i).mfcc中。</p><p> 我們比較一下兩個(gè)人的語音端點(diǎn)檢測(cè)的短時(shí)信號(hào)圖:</
75、p><p> 圖5-1 說話者A發(fā)音的vad輸出(1)——橫軸:時(shí)間(單位:秒)縱軸:能量——(單位:eV)(上圖)語音原始信號(hào);Energy 短時(shí)能量(單位:eV);ZCR 過零率(單位:%)</p><p> 圖5-2 說話者A發(fā)音的vad輸出(2)——橫軸:時(shí)間(單位:秒)——縱軸:能量(單位:eV)(上圖)語音原始信號(hào);Energy 短時(shí)能量(單位:eV);ZCR 過零率(單位:%
76、)</p><p> 圖5-3說話者B發(fā)音的vad輸出(2)——橫軸:時(shí)間(單位:秒)——縱軸:能量(單位:eV)(上圖)語音原始信號(hào);Energy 短時(shí)能量(單位:eV);ZCR 過零率(單位:%)</p><p> Vad函數(shù)的功能就是通過端點(diǎn)檢測(cè)功能甄別出語音信號(hào)的起始點(diǎn)與結(jié)束點(diǎn),圖中的紅線就是程序標(biāo)記的語音信號(hào)始末點(diǎn),可以看出,雜音基本被排除,效果是非常明顯的。</p&g
77、t;<p> 同時(shí),從以上三個(gè)圖的對(duì)比可以看出,不同發(fā)音者的發(fā)音波形及特性有較明顯區(qū)別。</p><p> 原始波形中,發(fā)音者A的波形在橫軸兩端不對(duì)稱,而發(fā)音者B的波形在橫軸兩端比較對(duì)稱;</p><p> 能量波形中,兩者的區(qū)別更加明顯:發(fā)音者A的能量高峰在語音后部,發(fā)音者B的能量高峰在語音前部;</p><p> 過零率波形中也可以明顯看出
78、兩個(gè)人的區(qū)別。端點(diǎn)檢測(cè)下的短時(shí)能量分析只是語音識(shí)別的第一步,但是通過該步驟已經(jīng)可以粗略的區(qū)別出不同發(fā)音者,并且可以進(jìn)一步分析發(fā)音者語音信號(hào)的特點(diǎn)。由此證明了端點(diǎn)檢測(cè)在語音識(shí)別中是非常重要的。</p><p> 5.2 實(shí)驗(yàn)結(jié)果及討論</p><p> 本實(shí)驗(yàn)的MATLAB運(yùn)行環(huán)境中輸出結(jié)果如下列圖所示:</p><p> 圖5-4 說話者A的兩組語音匹配結(jié)果及
79、距離匹配矩陣</p><p> 圖6 說話者B的兩組語音匹配結(jié)果及距離矩陣</p><p> 從輸出記過看,識(shí)別具有了一定程度的正確度。為了進(jìn)一步驗(yàn)證結(jié)果,看一下匹配距離矩陣dist的數(shù)據(jù)如下圖所示:</p><p> 距離矩陣的對(duì)角線上是正確匹配模板的對(duì)應(yīng)分?jǐn)?shù),可見對(duì)角線上的8個(gè)數(shù)值中有50%都是在本行中最小的,由此驗(yàn)證了識(shí)別結(jié)果的正確性。</p>
80、;<p> 圖5-5說話者B的兩組語音匹配結(jié)果及距離匹配矩陣</p><p> 圖5-6說話者A和B 的語音匹配結(jié)果及距離匹配矩陣</p><p> 圖5-7 說話者A和B的匹配矩陣的三維曲面圖</p><p> 圖5-8 說話者A和B的匹配矩陣的的三維柱狀圖</p><p> 圖5-9 說話者A和B的匹配矩陣的灰度視
81、圖</p><p> 結(jié)果顯示:說話者A的自匹配識(shí)別率為89%,說話者B的自匹配識(shí)別率也為89% ,而A和B之間的識(shí)別率為62% 。</p><p> 圖5-4,圖5-5,圖5-6中的匹配矩陣元為每個(gè)語音信號(hào)和參考模板中所有共8個(gè)語音信號(hào)的匹配距離,可以看出,在正確識(shí)別情況下,矩陣對(duì)角線上的矩陣元是本行中最小的(同一個(gè)語音信號(hào)和自己匹配距離最小),在匹配失敗的情況下,對(duì)角線上的矩陣元也
82、是次最小的。這一結(jié)果說明了DTW的可靠性和穩(wěn)定性。</p><p> 圖5-7,圖5-8,圖5-9以不同方式直觀的顯示了矩陣元的大小關(guān)系。X軸表示說話者A的語音信號(hào)編號(hào),Y軸表示說話者B的語音信號(hào)編號(hào),Z軸表示矩陣元的大小。</p><p> 三維曲面圖中的藍(lán)色部分,灰度圖中的全黑色部分為數(shù)值較小區(qū)域,可以看書,這個(gè)區(qū)域基本是在對(duì)角線上的?;叶葓D中的紅色連線便顯示了黑色方塊分布在對(duì)角線
83、上及附近。</p><p> 自匹配的識(shí)別準(zhǔn)確率達(dá)到90%,而不同發(fā)音者之間的識(shí)別率有明顯下降,為60%。這也是顯示出DTW算法在非特定人語音識(shí)別中不如特定人語音識(shí)別準(zhǔn)確。</p><p> 文獻(xiàn)[1]指出,使用DTW算法的特定人孤立字語音識(shí)別率能高達(dá)近100% ,而我們始終無法達(dá)到這一效果。有幾方面的原因:</p><p> 1.錄音設(shè)備和程序偏簡(jiǎn)單。一個(gè)非
84、常良好和精確的模板庫(kù)是高效率語音識(shí)別系統(tǒng)的基礎(chǔ)。我們使用簡(jiǎn)易麥克風(fēng)和windows自帶錄音程序可能無法建立一個(gè)完備的模板庫(kù)。</p><p> 2.DTW算法自身的缺陷。DTW自身算法只適用于孤立字語音識(shí)別,而且是簡(jiǎn)單字。因此識(shí)別機(jī)理上更加先進(jìn)的HMM和ANN方法能夠滿足更高的要求。 對(duì)DTW算法進(jìn)行改進(jìn)(比如端點(diǎn)檢測(cè))已經(jīng)提高了該算法的識(shí)別率。</p><p> 3.DTW算法僅限于
85、孤立字的語音識(shí)別,而連續(xù)語音的識(shí)別目前來說還比較難以達(dá)到高的識(shí)別率,這也是今后語音識(shí)別課題研究發(fā)展的方向。</p><p><b> 5.3 實(shí)驗(yàn)結(jié)論</b></p><p> 課題最終在MATLAB平臺(tái)的基礎(chǔ)上基本實(shí)現(xiàn)了個(gè)別個(gè)體的特定語音識(shí)別,基本上達(dá)到了預(yù)定的目的?;贒TW模型的語音識(shí)別簡(jiǎn)單的說就是通過MATLAB的程序段,將待識(shí)別的語音信號(hào)與數(shù)據(jù)庫(kù)中的模板
86、進(jìn)行相似度對(duì)比,將相似度最高者最為識(shí)別結(jié)果輸出,同時(shí)DTW的識(shí)別效率取決于參考模板的清晰度以及廣泛度,如果能夠建立一個(gè)范圍龐大而且清晰的特定人語音庫(kù),將能夠大大提高語音識(shí)別的效率。我們的試驗(yàn)由于時(shí)間以及外部設(shè)備的關(guān)系,難以組建一個(gè)非常精確的參考樣本,因此識(shí)別的效率略微偏低,不過已經(jīng)足夠說明DTW識(shí)別算法在特定人孤立字語音識(shí)別中的巨大作用。本文對(duì)于DTW算法提出了幾條在實(shí)際操作中切實(shí)可行的改進(jìn)建議,并對(duì)MFCC參數(shù)編程和ANN的應(yīng)用進(jìn)行了
87、探討。在程序中,由于受數(shù)據(jù)庫(kù)的局限,并沒有實(shí)現(xiàn)對(duì)于語音的模糊識(shí)別,但個(gè)別個(gè)體的特定語音識(shí)別也具有廣泛的用途。</p><p><b> 參考文獻(xiàn):</b></p><p> [1] Rabiner L, Juang B H. Fundamentals of Speech Recognition, Prentice-Hall International. Inc,
88、1999, p.17</p><p> [2] D.G.Childers, Matlab之語音處理與合成工具箱(影印版), 清華大學(xué)出版社, 2004, p.45-51</p><p> [3] 黃文梅, 熊桂林, 楊勇, 信號(hào)分析與處理—MATLAB語言及應(yīng)用, 國(guó)防科技大學(xué)出版社, 2000, p.37-40</p><p> [4] 楊行峻, 遲惠生,“
89、語音數(shù)字信號(hào)處理”, 電子工業(yè)出版社. 1995</p><p> [5] 張焱, 張杰, 黃志同, 語音識(shí)別中動(dòng)態(tài)時(shí)間規(guī)整和隱馬爾可夫統(tǒng)一模型 數(shù)據(jù)采集與處理 1997年03期 p.218-222</p><p> [6] 何強(qiáng), 何英, MATLAB擴(kuò)展編程[M], 清華大學(xué)出版社, 2002 p.345-347</p><p> [7] Rabiner
90、L and Juang B H. Introduction to hidden Markov models, IEEE ASSP Mag, vol.3,no.1,4-16,1986</p><p> [8] Huang X D. Hidden Markov Models for Speech Recognition, Edinburgh Information Technology Series.1999(7)
91、:136-202</p><p> [9] Rabiner L, A tutorial on hidden Markov models and selected applications in speech recognition, Proc, of IEEE, 77(2)257-286,1989</p><p> [10] Jen+Tzung Chien, Predictive Hi
92、dden Markov Model Selection for Speech Recognition, IEEE Transaction on Speech and Audio Processing, vol.13, No.3, May 2005</p><p> [11] 謝錦輝, 隱Markov模型(HMM)及其在語音處理中的應(yīng)用, 華中理工大學(xué)出版社.</p><p> [12]
93、 Christoph Gerber, A General Approach to Speech Recognition, Electronic Workshops in Computing, 1995</p><p> [13] Xu Bo, FENG Yuguang, YU Jinsong, Intelligent classifier for dynamic fault patterns based on
94、Hidden Markov Model</p><p> [14] MATLAB Primer, seventh edition, Chapman & Hall/CRC 2005</p><p> [15] Ara V.Nefian. Luhong Liang, Dynamic Bayesian Networks for Audio-Visual Speech Recognit
95、ion, EURASIP Journal on Applied Signal Processing 2002:11,1-15</p><p><b> 致 謝</b></p><p> 感謝本論文的導(dǎo)師xx老師。讓人耳目一新的是他的治學(xué)風(fēng)格,讓我們明白了科研并不是老師手把手帶學(xué)生,而是引導(dǎo)學(xué)生發(fā)現(xiàn)問題,然后大量收集資料,潛心鉆研。而且,每當(dāng)我有一些棘手的問題時(shí),
96、也能在他那里得到非常及時(shí)的幫助。</p><p> 感謝我們組的xx同學(xué),這篇論文的每個(gè)實(shí)驗(yàn)細(xì)節(jié)和每個(gè)數(shù)據(jù),都離不開你和我共同的辛勤勞動(dòng),非常愉快的合作和溝通。還要感謝04級(jí)的xx同學(xué)幫助我們對(duì)MATLAB迅速入門。</p><p> 感謝我的室友。四年了,仿佛就在昨天。四年里,我們沒有紅過臉,沒有吵過嘴,沒有發(fā)生上大學(xué)前所擔(dān)心的任何不開心的事情。只是今后大家就難得再聚在一起吃頓飯了吧
97、,沒關(guān)系,各奔前程,大家珍重。但愿遠(yuǎn)赴xx平安,留守復(fù)旦的xx加油,還有xx工作順利。我們?cè)谝黄鸬娜兆?,我?huì)記一輩子的。</p><p> 感謝我的爸爸媽媽,焉得諼草,言樹之背,養(yǎng)育之恩,無以回報(bào),你們永遠(yuǎn)健康快樂是我最大的心愿。</p><p> 在論文即將完成之際,我的心情無法平靜,從開始進(jìn)入課題到論文的順利完成,有多少可敬的師長(zhǎng)、同學(xué)、朋友給了我無言的幫助,在這里請(qǐng)接受我誠(chéng)摯的謝
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 畢業(yè)論文----利用matlab平臺(tái)實(shí)現(xiàn)_少量字的語音識(shí)別功能
- 基于matlab車牌識(shí)別畢業(yè)論文
- 畢業(yè)論文-基于matlab的指紋識(shí)別
- 畢業(yè)論文-基于matlab的指紋識(shí)別
- 畢業(yè)論文-語音識(shí)別機(jī)器人的設(shè)計(jì)與實(shí)現(xiàn)
- 畢業(yè)論文(設(shè)計(jì))基于模板匹配的車牌識(shí)別及matlab實(shí)現(xiàn)
- 人臉識(shí)別畢業(yè)論文--人臉檢測(cè)技術(shù)研究及matlab實(shí)現(xiàn)
- 基于matlab平臺(tái)的圖像增強(qiáng)技術(shù)畢業(yè)論文
- 畢業(yè)論文---語音識(shí)別機(jī)器人的設(shè)計(jì)
- 基于matlab語音信號(hào)采集與分析的畢業(yè)論文
- 畢業(yè)論文——基于matlab的語音信號(hào)頻譜分析
- matlab實(shí)現(xiàn)turbo編譯碼畢業(yè)論文
- 基于matlab的手寫體數(shù)字識(shí)別算法的實(shí)現(xiàn)與分析-畢業(yè)論文
- 結(jié)業(yè)畢業(yè)論文基于matlab地指紋識(shí)別
- 數(shù)值積分算法與matlab實(shí)現(xiàn)畢業(yè)論文
- 基于matlab的語音信號(hào)fir數(shù)字濾波處理畢業(yè)論文
- 畢業(yè)論文--基于matlab的人臉識(shí)別系統(tǒng)設(shè)計(jì)
- 基于matlab的語音識(shí)別算法研究
- 畢業(yè)論文(設(shè)計(jì))數(shù)值積分算法與matlab實(shí)現(xiàn)
- 語音識(shí)別電風(fēng)扇控制系統(tǒng)設(shè)計(jì)-畢業(yè)論文
評(píng)論
0/150
提交評(píng)論