畢業(yè)論文--噪音環(huán)境下的語音識別系統(tǒng)的研究_第1頁
已閱讀1頁,還剩30頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、<p>  噪音環(huán)境下的語音識別系統(tǒng)的研究</p><p><b>  摘 要</b></p><p>  語音增強(qiáng)是一個(gè)涉及面很廣的研究課題,它不僅涉及信號檢測、波形估計(jì)等傳統(tǒng)信號處理理論,而且還與語音特性、人耳感知特性和噪聲特性密切相關(guān)。因此在語音特性、人耳感知特性及噪聲特性的情況下常用語音增強(qiáng)法有:噪聲對消法、譜減法、維納濾波法、卡爾曼濾波法、FIR

2、 自適應(yīng)濾波法、基于神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)、基于聽覺感知的語音增強(qiáng)、基于小波變換的語音增強(qiáng)方法、自相關(guān)法等。本文主要從以下三種算法進(jìn)行分析:譜減法是處理寬帶噪聲較為傳統(tǒng)和有效的方法,利用帶噪語音的功率譜估值減去噪聲的功率譜估值實(shí)現(xiàn)語音去噪;維納濾波法是在最小均方準(zhǔn)則下實(shí)現(xiàn)對語音信號估計(jì)的一種濾波器。對于帶噪語音信號,確定濾波器的沖擊響應(yīng),使得帶噪語音信號經(jīng)過該濾波器后得到最接近于“純凈”的語音信號。小波變換法應(yīng)用小波閾值去噪的方法,分析了常

3、用的軟、硬閾值函數(shù)對語音增強(qiáng)的效果;仿真結(jié)果表明小波法效果較明顯,而譜減法易產(chǎn)生“音樂噪聲”,Wiener濾波增強(qiáng)后的殘留噪聲類似于白噪聲,而不是音樂噪聲。</p><p>  關(guān)鍵詞:語音增強(qiáng) 譜減法 小波閾值去噪 維納濾波法</p><p>  Research on speech recognition system under noisy environment</p

4、><p><b>  Abstract</b></p><p>  Speech enhancement is a broad topic, it not only relates to signal detection, Waveform Estimation and other traditional signal processing theory, but als

5、o is closely related to the speech characteristics, the human ear and the noise characteristics.Therefore, combined with the speech characteristics and the perceptual properties of human ear and the noise characteristics

6、.Therefore, in common with speech speech characteristics, human perceptual characteristics and noise characteristics of the cas</p><p>  threshold、effect of hard threshold function for speech enhancement;The

7、 simulation results show that the wavelet method has obvious effect, and the spectral subtraction method is easy to produce "music noise", Wiener filter enhancement residual noise is similar to white noise, not

8、 the music noise.</p><p>  Keywords:Speech enhancement Spectral subtraction Wavelet threshold denoising Wiener filtering method</p><p><b>  緒論</b></p><p><b>  1.1引

9、言</b></p><p>  隨著社會的不斷進(jìn)步和科技的飛速發(fā)展,計(jì)算機(jī)對人們的幫助越來越大,成為了人們不可缺少的好助手,但是一直以來人們都是通過鍵盤、鼠標(biāo)等和它進(jìn)行通信,這限制了人與計(jì)算機(jī)之間的交流,更限制了消費(fèi)人群。為了能讓多數(shù)人甚至是殘疾人都能使用計(jì)算機(jī),讓計(jì)算機(jī)能聽懂人的語言,理解人們的意圖,人們開始了對語音識別的研究。</p><p>  語音識別是語音學(xué)與數(shù)字信號

10、處理技術(shù)相結(jié)合的一門交叉學(xué)科,它和認(rèn)知學(xué)、心理學(xué)、語言學(xué)、計(jì)算機(jī)科學(xué)、模式識別和人工智能等學(xué)科都有密切關(guān)系。</p><p>  1.2語音識別的發(fā)展歷史和研究現(xiàn)狀</p><p>  1.2.1國外語音識別的發(fā)展?fàn)顩r</p><p>  國外的語音識別是從1952年貝爾實(shí)驗(yàn)室的Davis等人研制的特定說話人孤立數(shù)字識別系統(tǒng)開始的。</p><p

11、>  20世紀(jì)60年代,日本的很多研究者開發(fā)了相關(guān)的特殊硬件來進(jìn)行語音識別RCA實(shí)驗(yàn)室的Martin等人為解決語音信號時(shí)間尺度不統(tǒng)一的問題,開發(fā)了一系</p><p>  列的時(shí)問歸正方法,明顯地改善了識別性能。與此同時(shí),蘇聯(lián)的Vmtsyuk提出了采用動(dòng)態(tài)規(guī)劃方法解決兩個(gè)語音的時(shí)聞對準(zhǔn)問題,這是動(dòng)態(tài)時(shí)間彎折算法DTW(dymmic time warping)的基礎(chǔ),也是其連續(xù)詞識別算法的初級版.</p

12、><p>  20世紀(jì)70年代,人工智能技術(shù)走入語音識別的研究中來.人們對語音識別</p><p>  的研究也取得了突破性進(jìn)展.線性預(yù)測編碼技術(shù)也被擴(kuò)展應(yīng)用到語音識別中,DTw也基本成熟。</p><p>  20世紀(jì)80年代,語音識別研究的一個(gè)重要進(jìn)展,就是識別算法從模式匹配</p><p>  技術(shù)轉(zhuǎn)向基于統(tǒng)計(jì)模型的技術(shù),更多地追求從整體統(tǒng)

13、計(jì)的角度來建立最佳的語音識別系統(tǒng)。隱馬爾可夫模型(hidden Markov model,刪)技術(shù)就是其中一個(gè)典型技術(shù)。刪的研究使大詞匯量連續(xù)語音識別系統(tǒng)的開發(fā)成為可能。</p><p>  20世紀(jì)90年代,人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)也被應(yīng)用到語音識別的研究中,并使相應(yīng)的研究工作在模型的細(xì)化、參數(shù)的提取和優(yōu)化以及系統(tǒng)的自適應(yīng)技術(shù)等方面取得了一些關(guān)鍵性的進(jìn)展,此時(shí),

14、語音識別技術(shù)進(jìn)一步成熟,并走向?qū)嵱?。許多發(fā)達(dá)國家,如美國、日本、韓國,已經(jīng)IBM、Microsoft、Apple、AT&T、Nrr等著名公司都為語音識別系統(tǒng)的實(shí)用化開發(fā)研究投以巨資。當(dāng)今,基于HMM和ANN相結(jié)合的方法得到了廣泛的重視。而一些模式識別、機(jī)器學(xué)習(xí)方面的新技術(shù)也被應(yīng)用到語音識別過程中,如支持向量機(jī)(supportvector machine,SVM)技術(shù)、進(jìn)化算法(evolutionary computation)技

15、術(shù)等。</p><p>  1.2.2國內(nèi)語音識別的發(fā)展?fàn)顩r</p><p>  20世紀(jì)50年代我國就有人嘗試用電子管電路進(jìn)行元音識別,到70年代才由中科院聲學(xué)所開始進(jìn)行計(jì)算機(jī)語音識別的研究.80年代開始,很多學(xué)者和單位參與到語音識別的研究中來,也開展了從最初的特定人、小詞匯量孤立詞識別,</p><p>  到非特定人、大詞匯量連續(xù)語音識別的研究工作.80年代末

16、,以漢語全音節(jié)識</p><p>  別作為主攻方向的研究已經(jīng)取得了相當(dāng)大的進(jìn)展,一些漢語語音輸入系統(tǒng)已經(jīng)向?qū)嵱没~進(jìn)。90年代j四達(dá)技術(shù)開發(fā)中心和哈爾濱工業(yè)大學(xué)合作推出了具有自然語言理解能力的新產(chǎn)品.在國家“863”計(jì)劃的支持下,清華大學(xué)和中科院自動(dòng)化所等單位在漢語聽寫機(jī)原理樣機(jī)的研制方面開展了卓有成效的研究.經(jīng)過60多年的發(fā)展,語音識別技術(shù)已經(jīng)得到了很大發(fā)展,對于語音識別的研究也達(dá)到了相當(dāng)高的水平,并在實(shí)驗(yàn)室

17、環(huán)境下能達(dá)到很好的識別效果。但是,在實(shí)際應(yīng)用中,噪聲以及各種因素的影響,使語音識別系統(tǒng)的性能大幅度下降,很難達(dá)到讓人滿意的效果。因此,對噪聲環(huán)境下的語音識別的研究有著異常重要</p><p>  的理論價(jià)值和現(xiàn)實(shí)意義.</p><p>  1.3語音識別的分類</p><p>  語音識別存在不同的分類方法:</p><p>  (1)按詞匯

18、量大小分。每個(gè)語音識別系統(tǒng)都有一個(gè)詞匯表,系統(tǒng)能識別詞匯表中所包含的詞條。通常按詞匯量可分為小詞匯量、中詞匯量和大詞匯量,一般小詞匯量包括10~100個(gè)詞;中詞匯量大約包括100~500個(gè)詞條;大詞匯量則至少包含500個(gè)以上的詞條。</p><p>  (2)按發(fā)音方式分。語音識別可以分為孤立詞識別、連續(xù)詞識別、連續(xù)語音識別以及關(guān)鍵詞檢出等。孤立詞識別,是機(jī)器只識別一個(gè)個(gè)孤立的音節(jié)、詞或者短語等;連續(xù)語音識別,是

19、機(jī)器識別連續(xù)自然的書面朗讀形式的語音;在連續(xù)詞識別中,發(fā)音方式介于孤立詞和連續(xù)語音之間,它表面上看起來象連續(xù)語音發(fā)音,但能明顯感受到音與音之間的停頓;關(guān)鍵詞檢出,通常用于說話人以類似自由交談方式的發(fā)音,在這種發(fā)音方式下,只需要進(jìn)行其中的關(guān)鍵詞識別.</p><p>  (3)按說話人分.可分為特定說話人和非特定說話人兩種。前者只能識別固定某個(gè)人的聲音,而后者是機(jī)器能識別出任意人的發(fā)音。</p>&l

20、t;p>  (4)從語音識別的方法分. 有模式匹配法、隨機(jī)模型法和概率語法分析法。模式匹配法是將測試語音與參考模板的參數(shù)一一進(jìn)行比較和匹配,判決的依據(jù)是失真測度最小準(zhǔn)則;隨機(jī)模型法是一種使用隱馬爾可夫模型來對似然函數(shù)進(jìn)行估計(jì)和判決,從而得到相應(yīng)的識別結(jié)果的方法;概率語法分析法適用于大范圍的連續(xù)語音識別,它可以利用連續(xù)語音中的語法約束知識來對似然函數(shù)進(jìn)行估計(jì)和判決. </p><p>  1.4噪聲對語音識別

21、的影響</p><p>  隨著科技的發(fā)展,人們對語音識別的研究越來越深入,在理論上達(dá)到了很成</p><p>  熟的階段,也開始步入實(shí)用化階段。以mM的ViaVoice為代表,其對連續(xù)語的識別率可以達(dá)到95%以上.但是所有識別系統(tǒng)對噪聲都是極為敏感的,在噪聲環(huán)境下,識別性能會大幅度下降州.例如,在一個(gè)典型的孤立詞識別系統(tǒng)中,用純凈語音訓(xùn)練,識別效果會達(dá)到100%,但在以100公里每小時(shí)

22、的速度行駛的小車上,其識別率將下降70%左右;一個(gè)用純凈語音訓(xùn)練的識別系統(tǒng),誤識率不到l%,但是在自助餐廳里,其誤識率竟然上升近50%:一個(gè)與說話者無關(guān)的語音識別系統(tǒng),在實(shí)驗(yàn)室環(huán)境下其誤識率不到l%,但是如果用來識別一個(gè)通過長距離電話線并且信噪比為15dB的語音,其錯(cuò)誤率將高達(dá)44%。在噪聲環(huán)境下,識別系統(tǒng)的識別率大幅度下降,是現(xiàn)在語音識別產(chǎn)品無法廣泛走入實(shí)用的主要障礙。</p><p>  在噪聲環(huán)境下語音識別

23、系統(tǒng)的識別率大幅度下降的根本原因就是錄入環(huán)境和識別環(huán)境的不匹配。在實(shí)驗(yàn)室環(huán)境下,訓(xùn)練環(huán)境相對安靜,基本上是對純凈語</p><p>  音迸行訓(xùn)練,模板庫的特征矢量。是通過提取純凈語音的特征參數(shù)得到的。但是</p><p>  在實(shí)際應(yīng)用中,噪聲是不可避免的,同一語音在噪聲的影響下特征參數(shù)發(fā)生了變</p><p>  化,從而影響了識別語音和模板庫中的語音的相似度,

24、導(dǎo)致識別系統(tǒng)的識別率大</p><p><b>  幅度下降。</b></p><p>  為解決噪聲環(huán)境下,識別語音的特征參數(shù)和模叛庫中的特征不匹配的問題我們必須想辦法消除噪聲對語音特征參數(shù)的影響,根據(jù)語音識別過程可知,有以下三種方法:</p><p>  (1)假定語音模板和背景噪聲無關(guān),即無論是清晰語音還是帶噪語音,都用同一套模板來識別.

25、在這種情況下,重點(diǎn)在識別階段,從帶噪語音中提取出抗噪的特征參數(shù)或者采取抗噪聲的失真測度.</p><p>  (2)在語音的識別階段,語音識別系統(tǒng)加一個(gè)前端處理,從帶噪語音中提取出純凈語音,然后再提取語音的特征參數(shù).這種方法被稱為語音增強(qiáng)。</p><p>  (3)在語音識別階段,根據(jù)識別現(xiàn)場的環(huán)境噪聲對語音模板進(jìn)行變換,使之接近根據(jù)現(xiàn)場帶噪語音訓(xùn)練而成的語音模板.這種方法稱為語音模板的

26、噪聲補(bǔ)償.無論使用哪種方法消除噪聲,我們首先要了解噪聲。根據(jù)噪聲對語音頻譜的干擾方式不同可以把噪聲分為加性噪聲和乘性噪聲兩類.</p><p><b>  (1)如性噪聲</b></p><p>  噪聲和語音信號是相互獨(dú)立的,而所采集到的信號是真實(shí)的語音信號和噪聲的和,這種噪聲就是所謂的加性噪聲。語音信號在實(shí)際環(huán)境中受到的背景噪聲、辦公室里的打印機(jī)的工作聲、計(jì)算機(jī)中

27、的磁盤驅(qū)動(dòng)器和風(fēng)扇等設(shè)備的聲音以及周圍說話人的聲音等都是加性噪聲.</p><p><b>  (2)乘性噪聲</b></p><p>  乘性噪聲也叫卷積噪聲,是指噪聲和語音在頻譜是相乘的關(guān)系,在時(shí)域上則是卷積關(guān)系的噪聲。乘性噪聲可以轉(zhuǎn)換為加性噪聲.由于實(shí)際環(huán)境中的背景噪聲多數(shù)是加性噪聲,因此致使系統(tǒng)識別率的大幅度下降的“元兇”就是加性噪音。我們在后面講到的去噪,也

28、是指去除加性噪聲。</p><p>  1.5課題的意義及研究目標(biāo)</p><p>  語音是人類相互之間進(jìn)行交流時(shí)使用最多、最自然、最基本也是最重要的信息載體。在實(shí)際環(huán)境中,語音信號總是會受到外界環(huán)境噪聲的干擾,這些噪聲包括從周圍環(huán)境、傳輸媒質(zhì)中引入的噪聲、通信設(shè)備內(nèi)部電噪聲乃至其他說話人的干擾等等。這些干擾會使接收端的語音成為受噪聲污染的語音,當(dāng)噪聲干擾嚴(yán)重時(shí),語音將完全淹沒到噪聲中,

29、使其無法分辨。語音增強(qiáng)是解決噪聲污染的一種有效方法,它是從帶噪語音信號中提取盡可能純凈的原始語音??偟膩碚f語音增強(qiáng)的目標(biāo)[1]主要有:改進(jìn)語音質(zhì)量,消除背景噪聲,使聽者樂于接受,不感覺疲勞;提高語音可懂度,方便聽者理解。但由于噪聲來源眾多,隨著應(yīng)用場合不同,它們的特性也各不相同,即使在實(shí)驗(yàn)室仿真條件下,也難以找到一種通用的語音增強(qiáng)算法,能適用于各種噪聲環(huán)境,因此必須根據(jù)不同的噪音,采取特定的語音增強(qiáng)策略來降低噪音。語音是人類相互之間進(jìn)行

30、交流時(shí)使用最多、最自然、最基本也是最重要的信息載體。在實(shí)際環(huán)境中,語音信號總是會受到外界環(huán)境噪聲的干擾,這些噪聲包括從周圍環(huán)境、傳輸媒質(zhì)中引入的噪聲、通信設(shè)備內(nèi)部電噪聲乃至其他說話人的干擾等等。這些干擾會使接收端的語音成為受噪聲污染的語音,當(dāng)噪聲干擾嚴(yán)重時(shí)</p><p>  1.6論文內(nèi)容的安排</p><p>  本文在研究自適應(yīng)濾波器理論的基礎(chǔ)上,對兩種重要的自適應(yīng)噪聲抵消算法進(jìn)行了

31、介紹,針對基于傳統(tǒng)的最小均方算法的噪聲對消器存在的缺點(diǎn),本文給出了幾種最小均方的改進(jìn)算法,在收斂速度和收斂性能上有所改善。并在MATLAB軟件平臺上進(jìn)行了模擬仿真研究,對算法的收斂特性和消噪效果進(jìn)行了分析。這對于有效地消除和抑制夾雜在語音中的噪聲有顯著的作用。本論文內(nèi)容安排如下:</p><p>  第一章是緒論部分,闡述了課題研究的背景、目的和意義。</p><p>  第二章介紹了幾種

32、常見的語音降噪方法,并對每種方法進(jìn)行了簡單的分析,針對文章研究的內(nèi)容,選擇了適合的語音降噪方法。</p><p>  第三章先介紹了譜減法的技術(shù)原理,對所提出的算法進(jìn)行性能仿真,并針對仿真結(jié)果進(jìn)行算法的可行性和性能分析。</p><p>  第四章介紹了維納濾波法的技術(shù)原理,對所提出的算法進(jìn)行性能仿真,并針對仿真結(jié)果進(jìn)行算法的可行性和性能分析。</p><p>  

33、第五章介紹了小波變換法的技術(shù)原理,并針對仿真結(jié)果進(jìn)行算法的可行性和性能分析。</p><p>  第六章是對全文的總結(jié),分析了本文的主要研究成果,并對未來工作進(jìn)行了分析與展望。</p><p>  語音去噪的模型與方法</p><p>  2.1語音和噪聲的特性</p><p>  2.1.1語音的特性</p><p>

34、;  (1)語音是時(shí)變的、非平穩(wěn)的隨機(jī)過程人類發(fā)音系統(tǒng)生理結(jié)構(gòu)的變化速度是有一定限度的在一段時(shí)間內(nèi)(10.30ms),人的聲帶和聲道形狀是相對穩(wěn)定的,因而語音的短時(shí)譜具有相對穩(wěn)定性,所以在語音分析中就可利用短時(shí)譜的這種平穩(wěn)性。</p><p>  (2)語音可分為濁音和清音兩大類:濁音在時(shí)域上呈現(xiàn)出明顯的周期性,在頻域上有共振峰結(jié)構(gòu),而且能量大部分集中在較低頻段內(nèi)而清音段沒有明顯的時(shí)域和頻域特征,類似于白噪聲。在

35、語音增強(qiáng)研究中,可利用濁音的周期性特征,采用梳狀濾波器提取語音分量或者抑制非語音信號,而清音則難以與寬帶噪聲區(qū)分。</p><p>  (3)語音信號可以用統(tǒng)計(jì)分析特性來描述:由于語音是非平穩(wěn)的隨機(jī)過程,所以長時(shí)間的時(shí)域統(tǒng)計(jì)特性在語音增強(qiáng)的研究中意義不大。語音的短時(shí)譜幅度的統(tǒng)計(jì)特性是時(shí)變的,只有當(dāng)分析幀長趨于無窮大時(shí),才能近似認(rèn)為其具有高斯分布。高斯分布模型是根據(jù)中心極限定理得到的,將高斯模型應(yīng)用于有限幀長只是一

36、種近似的描述。在寬帶噪聲污染的語音增強(qiáng)中,可將這種假設(shè)作為分析的前提。</p><p>  (4)語音感知對語音增強(qiáng)研究有重要作用:人耳對語音的感知主要是通過語音信號頻譜分量幅度獲得的,入耳對頻率高低的感受近似與該頻率的對數(shù)值成正比。共振峰對語音的感知十分重要,特別是第二共振峰比第一共振峰更為重要。</p><p>  2.1.2 噪聲的特性</p><p>  噪

37、聲來源于實(shí)際的應(yīng)用環(huán)境,因而其特性變化無窮,噪聲可以是加性的,也可以是非加性的。考慮到加性噪聲更普遍且易于分析問題,并且對于部分非加性噪聲,如乘積性噪聲或卷積性噪聲,可以通過同態(tài)變換而成為加性噪聲,這里我們僅討論加性噪聲。加性噪聲大致可分為周期性噪聲、沖激噪聲和寬帶噪聲:</p><p><b>  (1)周期性噪聲</b></p><p>  周期性噪聲的特點(diǎn)是有許

38、多離散的窄譜峰,它往往來源于發(fā)動(dòng)機(jī)等周期運(yùn)轉(zhuǎn)的機(jī)械,如或交流聲會引起周期性噪聲。周期性噪聲引起的問題可以通過功率譜發(fā)現(xiàn),并通過濾波或變換技術(shù)將其去掉。</p><p><b>  (2)沖激噪聲</b></p><p>  沖激噪聲表現(xiàn)為時(shí)域波形中突然出現(xiàn)的窄脈沖,它通常是放電的結(jié)果。消除這種噪聲可根據(jù)帶噪語音信號幅度的平均值確定閩值,當(dāng)信號幅度超過這一閾值時(shí)判為沖激

39、噪聲,然后進(jìn)行消除。</p><p><b>  (3)寬帶噪聲</b></p><p>  寬帶噪聲的來源很多,如熱噪聲、氣流如風(fēng)、呼吸噪聲及各種隨機(jī)噪聲源等,量化噪聲也可視為寬帶噪聲。由于寬帶噪聲與語音信號在時(shí)域和頻域上完全重疊,因而消除它最為困難,這種噪聲只有在語音間歇期才單獨(dú)存在。對于平穩(wěn)的寬帶噪聲,通常認(rèn)為是白色高斯噪聲不具有白色頻譜的噪聲,可以先進(jìn)行白化處

40、理。對于非平穩(wěn)的寬帶噪聲,情況就更為復(fù)雜一些。</p><p>  本文中研究的噪聲等以人的呼吸或?qū)嶒?yàn)室環(huán)境下的噪聲為主要對象,這種</p><p>  噪聲一般符合如下的假設(shè):</p><p>  (1)噪聲是加性的;</p><p>  (2)噪聲是局部平穩(wěn)的,局部平穩(wěn)是指一段帶噪語音中的噪聲,具有和語音開始前那段噪聲相同的統(tǒng)計(jì)特性,且在

41、整個(gè)語音段中保持不變,也就是說,可以根據(jù)語音開始前那段噪聲來估計(jì)語音中所疊加的噪聲統(tǒng)計(jì)特性;</p><p>  (3)噪聲與語音獨(dú)立或不相關(guān)。</p><p>  2.1.3 帶噪語音模型</p><p>  本文中研究的噪聲是以工廠噪聲、人的噪音以及汽車噪聲等為主要對象,一般符合如下的假設(shè)噪聲是加性的、局部平穩(wěn)的、噪聲與語音統(tǒng)計(jì)獨(dú)立或不相關(guān)。</p>

42、<p>  帶噪語音模型表達(dá)式如下[2]</p><p><b>  2-1</b></p><p>  其中s(n)表示純凈語音,d(n)噪聲,J,(功表示帶噪語音。帶噪語音模型如圖2.1所示:</p><p>  圖2-1帶噪語音模型</p><p>  而說噪聲是局部平穩(wěn),是指一段帶噪語音中的噪聲,具

43、有和語音段開始前那段噪聲相同的統(tǒng)計(jì)特性,且在整個(gè)語音段中保持不變。也就是說,可以根據(jù)語音開始前那段噪聲來估計(jì)語音中所疊加的噪聲統(tǒng)計(jì)特性。</p><p>  2.2 幾種傳統(tǒng)的語音降噪方法</p><p>  通過對前人在噪聲抵消方面的研究的學(xué)習(xí)和總結(jié),現(xiàn)以語音信號為例,列舉幾種語音降噪的方法并對其性能進(jìn)行簡單介紹如下:</p><p><b>  2.2

44、.1頻譜減法</b></p><p>  頻譜減法是利用噪聲的統(tǒng)計(jì)平穩(wěn)性以及加性噪聲與讀音不相關(guān)的特點(diǎn)而提出的一種語音增強(qiáng)方法。這種方法沒有使用參考噪聲源,但它假設(shè)噪聲是統(tǒng)計(jì)平穩(wěn)的,即有語音期間噪聲振幅譜的期望值與無語音間隙噪聲的振幅譜的期望值相等。用無語音間隙測量計(jì)算得到的噪聲頻譜的估計(jì)值取代有語音期間噪聲的頻譜,與含噪語音頻譜相減,得到語音頻譜的估計(jì)值。當(dāng)上述差值得到負(fù)的幅度值時(shí),將其置零。<

45、;/p><p>  頻譜減法的主要思想是認(rèn)為:含噪語音在噪聲平均功率以上的部分就是語音功率,其余則認(rèn)為是噪聲功率。這種顯然忽略了噪聲和語音的隨機(jī)特性。在含噪語音的功率譜中,噪聲平均功率以上部分并非全是語音,其中肯定有不少加性噪聲成分存在,其下部分則也必有語音成分存在。因此,這種方法對提高語音信噪比十分有限,而且還會引起語音的失真。特別是在低信噪比時(shí),這種方法很難提高語音質(zhì)量,更難提高語音可懂度。普減法的優(yōu)點(diǎn)在于它的算

46、法簡單,并且可以較大幅度地提高信噪比,其缺點(diǎn)是增強(qiáng)后的語音中含有明顯的音樂噪聲,這是由頻譜相減而產(chǎn)生的一種殘留噪聲,具有一定的節(jié)奏起伏感,故而被稱為音樂噪聲。</p><p>  2.2.2線性濾波法</p><p>  線性濾波法主要是利用了語音的產(chǎn)生模型。對于受加性穩(wěn)態(tài)白噪聲干擾的語音信號來說,語音的頻譜又以根據(jù)語音的產(chǎn)生模型近似地用含噪語音來預(yù)測得到。而噪聲頻譜則用其期望值來近似。這

47、樣得到了語音和噪聲近似的頻譜后就可得到濾波器,由此濾波器可使語音得到增強(qiáng)。線性濾波法不僅用到了噪聲的統(tǒng)計(jì)知識,還用到了部分語音知識,但顯然這些知識都是一種近似的代替。因此這種方法對提高語音信噪比和可懂效果十分有限。特別是當(dāng)信噪比較低時(shí),對語音參數(shù)的預(yù)測誤差明顯增大,從而降噪效果就不明顯,并且當(dāng)噪聲不是白噪聲時(shí),按照語音的產(chǎn)生模型就很難準(zhǔn)確預(yù)測語音參數(shù)[3]。因此對有色噪聲線性濾波方法就能難以應(yīng)付。</p><p>

48、;  2.2.3小波變換法</p><p>  小波分析是一種時(shí)頻分析,而傳統(tǒng)的信號分析是建立在傅立葉變換的基礎(chǔ)之上的。由于傅立葉分析使用的是一種全局的變換,因此無法表達(dá)信號時(shí)頻局域性質(zhì),而這種性質(zhì)恰恰是非平穩(wěn)信號如語音信號最根本和最關(guān)鍵的性質(zhì)。Mallat最早建立了多分辨率分析框架與小波分析的關(guān)系[4]。小波變換能將信號在多個(gè)尺度上進(jìn)行子波分解,各尺度上分解所得的子波變換系數(shù)代表原信號在不同分辨率上的信息。它具

49、有多分辨率分析的特點(diǎn),而且在時(shí)頻域都具有表征信號局部特征的能力。它克服了短時(shí)傅立葉變換固定分辨率的缺點(diǎn),在信號的高頻部分,可以獲得較好的時(shí)間分辨率,在信號的低頻部分可以獲得較高的頻率分辨率,特別適用于像語音信號、地震信號等非平穩(wěn)信號的處理。由于信號和隨機(jī)噪聲在不同尺度的特性關(guān)系,許多研究學(xué)者已利用這種特性進(jìn)行信號的去噪處理,并取得較好的效果。但是,由于用子波系數(shù)去噪時(shí),需要選擇和確定一個(gè)用于取舍信號和噪聲模極大值的閾值,而在實(shí)際應(yīng)用中該

50、閾值是較難選擇確定的。另外,也有學(xué)者采用二進(jìn)子波、子波包和帶子波進(jìn)行語音增強(qiáng),但這些方法的頻率劃分是一種倍頻程關(guān)系,與人耳所固有的對語音的頻域感知特性不完全吻合。</p><p>  2.2.4自適應(yīng)噪聲抵消法</p><p>  就目前而言,帶自適應(yīng)濾波器的自適應(yīng)噪聲抵消法對含噪聲語音的降噪效果較好。因?yàn)檫@種方法比其它方法多用了1個(gè)參考噪聲作為輔助輸入,從而獲得了比較全面的關(guān)于噪聲的信息

51、,因而能得到更好的降噪效果。特別是在輔助輸入噪聲與語音中的噪聲完全相關(guān)的情況下,自適應(yīng)噪聲抵消法能完全排除噪聲的隨機(jī)性,徹底地抵消語音中的噪聲成分,從而無論在信噪比SNR方面還是在語音可懂度方面都能獲得較大的提高[9]。其工作原理實(shí)質(zhì)上為以均方誤差E[e2(n)]或方差e2(n)最小為準(zhǔn)則,對噪聲d(n)進(jìn)行最優(yōu)增強(qiáng)語音的目的。隨著理論性能研究的不斷深入,應(yīng)用日趨廣泛。</p><p>  2.2.5維納濾波法&

52、lt;/p><p>  維納濾波法是在最小均方準(zhǔn)則下實(shí)現(xiàn)對語音信號估計(jì)的一種濾波器。對于帶噪語音信號,確定濾波器的沖擊響應(yīng),使得帶噪語音信號經(jīng)過該濾波器后得到最接近于“純凈”的語音信號。</p><p>  采用維納濾波的好處是增強(qiáng)后的殘留噪聲類似于白噪聲,而不是有節(jié)奏起伏的音樂噪聲。維納濾波是平穩(wěn)條件下時(shí)域波形的最小均方誤差準(zhǔn)則估計(jì)。由于沒有考慮到語音頻譜分量的幅度對人的聽覺最重要,因此采用

53、維納濾波來增強(qiáng)語音存在一定的缺陷。</p><p><b>  2.3本章小結(jié)</b></p><p>  本章首先對語音和噪聲的特性進(jìn)行了簡要介紹,隨后討論了幾種語音降噪的模型與實(shí)現(xiàn)方法以及各自的優(yōu)缺點(diǎn)。文章的后幾章主要是選用譜減法、維納濾波法、小波變換法技術(shù)進(jìn)行語音降噪處理,并將進(jìn)行詳細(xì)的陳述,所以本章只是簡要的對這三種方法做了介紹。</p><

54、;p>  譜減法原理及其算法實(shí)現(xiàn)過程</p><p><b>  3.1譜減法原理</b></p><p>  譜相減方法是基于人的感覺特性,即語音信號的短時(shí)幅度比短時(shí)相位更容易對人的聽覺系統(tǒng)產(chǎn)生影響,從而對語音短時(shí)幅度譜進(jìn)行估計(jì),適用于受加性噪聲污染的語音。</p><p>  處理寬帶噪聲的最通用技術(shù)是譜相減法,即從帶噪語音估值中減去

55、噪聲頻譜估值,從而得到純凈語音的頻譜。由于人耳對語音頻譜分量的相位不敏感,因而這種方法主要針對短時(shí)幅度譜。所謂“譜相減”就是從輸入信號的幅度譜中減去估計(jì)得來的噪聲平均幅度譜,其效果相當(dāng)于在變換域?qū)г胄盘栠M(jìn)行了某種均衡化處理。相對于其它方法,譜相減法引入的約束條件最少,物理意義最直接,運(yùn)算量小,而且經(jīng)過改進(jìn)后效果也較好。</p><p>  傳統(tǒng)的譜減法即在頻域?qū)г胝Z音的功率譜減去噪聲的功率譜,得到語音的功率譜

56、估計(jì),開方后就得到語音幅度估計(jì),將其相位恢復(fù)后再采用逆傅立葉變換恢復(fù)時(shí)域信號。考慮到人耳對相位的感覺不靈敏,相位恢復(fù)時(shí)所采用的相位是帶噪語音的相位信息。</p><p>  由于語音是短時(shí)平穩(wěn)的,所以在短時(shí)譜幅度估計(jì)中認(rèn)為它是平穩(wěn)隨機(jī)信號,假設(shè)、和分別代表語音、噪聲和帶噪語音,、和</p><p>  分別表示其短時(shí)譜。假設(shè)噪聲是與語音不相關(guān)的加性噪聲。于是得到信號的加性模型: </

57、p><p>  (3-1) 經(jīng)過加窗處理后的信號分別表示為,,,則有</p><p><b>  (3-2)</b></p><p>  對上式兩端分別做傅立葉變換,得</p><p><b>  (3-3)</b></p><p><b>  對功率譜有</b

58、></p><p><b>  (3-4)</b></p><p>  可以根據(jù)觀測數(shù)據(jù)估計(jì),其余各項(xiàng)必須近似為統(tǒng)計(jì)均值。由于 和獨(dú)立,則互相的統(tǒng)計(jì)均值為0,所以原始語音的估值為

59、 (3-5) 為了估計(jì)噪聲功率,采用了端點(diǎn)檢測法。因?yàn)樵肼暿蔷植科椒€(wěn)的,故可以認(rèn)為發(fā)音前的噪聲與發(fā)音期間的噪聲功率譜相同,因而可以利用發(fā)語音前的“寂靜幀”來估計(jì)噪聲。</p><p>  從(3-5)式中可以看出,估計(jì)值不能保證是非負(fù)的,這是因?yàn)樵诠烙?jì)噪聲時(shí)存在誤差,當(dāng)估計(jì)噪聲平均功率大于某幀帶噪語音功率時(shí),該幀得出的估計(jì)值就會出現(xiàn)為負(fù)的情況,這些負(fù)值我

60、們可以通過改變它們的符號使之變?yōu)檎?,也可以直接給它們置零,本文我們采用后種處理方式。</p><p>  只要在頻域用(3-5)式得到純凈語音的譜估計(jì),就可以根據(jù)(3-6)式得到增強(qiáng)后的語音。</p><p><b>  3-6)</b></p><p>  如前面分析,利用人耳對相位不敏感的特點(diǎn),在式(3-6)中可利用原帶噪語音的相位恢復(fù)到

61、時(shí)域語音信號,從而得到處理后的語音信號,完成整個(gè)基于譜減法的語音增強(qiáng)過程。</p><p>  根據(jù)前面分析,我們可以給出譜相減算法的整個(gè)算法流程,如圖3-1所示:</p><p>  圖3-1 譜減法的算法流程</p><p>  3.2 譜減法建立的假設(shè)</p><p>  譜減法的建立要基于以下幾點(diǎn)假設(shè):</p><

62、p>  (1) 噪聲信號和語音信號是互不相關(guān)的(獨(dú)立的),并且在頻域是加性的關(guān)系。</p><p>  (2) 背景噪聲環(huán)境相對于語音活動(dòng)區(qū)域來說是近似穩(wěn)態(tài)的,這樣就可以利用在無聲段估測的平均噪聲譜來逼近有聲段的噪聲譜。</p><p>  (3) 如果背景噪聲環(huán)境變化到一個(gè)新的穩(wěn)態(tài),則應(yīng)有足夠的時(shí)間(約300ms左右)以便于估計(jì)出新的背景噪聲譜幅度估值。</p>&l

63、t;p>  (4) 對于緩慢變化的非平穩(wěn)噪聲環(huán)境,譜減法算法中有話音激活檢測環(huán)節(jié)以便適時(shí)的判斷并進(jìn)行調(diào)整。</p><p>  (5) 假設(shè)主要噪聲影響的消除可以通過僅僅從帶噪語音譜幅度中減去噪聲而實(shí)現(xiàn)。</p><p><b>  3.3 實(shí)現(xiàn)過程</b></p><p>  3.3.1 基于譜減法的語音增強(qiáng)算法流程</p>

64、;<p>  本文采用了MATLAB語言實(shí)現(xiàn)了整個(gè)基于譜減法的語音增強(qiáng)算法,具體MATLAB程序見附錄,其算法流程如下:</p><p>  (1)對輸入的語音信號進(jìn)行預(yù)濾波;</p><p>  (2)對濾波后的語音信號進(jìn)行預(yù)加重;</p><p>  (3)將語音信號按每幀128個(gè)信號點(diǎn)進(jìn)行分幀,幀移為64;</p><p>

65、;  (4)對信號幀加漢明窗(Haming);</p><p>  (5)對加窗后的信號幀進(jìn)行FFT變換;</p><p>  (6)對各幀語音信號求功率譜;</p><p>  (7)根據(jù)前20幀求取平均噪聲功率;</p><p>  (8)利用VAD進(jìn)行噪聲估計(jì)檢測寂靜段,進(jìn)而組合遞歸平滑,更新噪聲譜;</p><p&

66、gt;  (9)進(jìn)行譜減運(yùn)算,得到估計(jì)出的語音信號功率譜;</p><p>  (10)插入相位譜,計(jì)算出語音譜;</p><p>  (11)進(jìn)行IFFT變換,得到還原的語音幀;</p><p>  (12)根據(jù)各個(gè)語音幀組合為語音信號;</p><p>  (13)對語音信號進(jìn)行去加重處理,得到最終信號。</p><p

67、>  根據(jù)以上譜減法的算法流程,采用MATLAB語言進(jìn)行仿真試驗(yàn),試驗(yàn)用的語音材料是WAV格式的語音,經(jīng)處理后去噪效果明顯,較好地抑制了噪聲,提高了語音的可懂度。</p><p>  3.3.2 仿真實(shí)驗(yàn)的結(jié)果</p><p>  在仿真實(shí)驗(yàn)中,采用的是在實(shí)驗(yàn)室內(nèi)錄制的純凈男語音信號“基于譜減法的語音增強(qiáng)”,采樣率8kHz,使用MATLAB函數(shù)wavread( )調(diào)用,在程序中對純凈

68、語音加入高斯白噪聲,調(diào)用MATLAB函數(shù)wavwrite( )進(jìn)行輸出,命名為“noised”。根據(jù)譜減法的假設(shè):假定純凈語音與高斯白噪聲相互獨(dú)立,故我們可將兩者直接相加得到帶噪的語音信號。</p><p>  當(dāng)?shù)玫綆г胝Z音信號后,對其進(jìn)行譜減去噪處理,便到去噪后的語音信號,并調(diào)用MATLAB函數(shù)的wavwrite( )進(jìn)行輸出,命名為“zong”。從聲音文件的測聽效果來說,是令人滿意的。</p>

69、<p>  在本論文的MATLAB程序中,分別畫出了加噪語音 (見圖3-5)、增強(qiáng)后語音 (見圖3-6)的語音圖。從的語音圖中可以很容易發(fā)現(xiàn),本論文提出的算法具較明顯的去噪效果。</p><p>  圖3-5帶噪語音信號(上) 增強(qiáng)后的語音信號(下) </p><p>  圖3-6帶噪語譜信號(上) 增強(qiáng)后的語譜信號(下)</p><p>  三、改善算

70、法、減少音樂噪聲</p><p>  白噪聲的短時(shí)功率譜上既有波峰,又有波谷。在一幀里,它們的頻率分布是隨機(jī)的;在幀與幀之間,它們的頻率和幅度也是隨機(jī)變化的。當(dāng)我們從帶噪語音的頻譜中減去我們估計(jì)的噪聲譜,所有的帶噪語音頻譜峰值都會變小,而谷值由于小于估計(jì)的噪聲值被置零。因此,進(jìn)行譜減法之后,在頻譜上只留下波峰。在這些留下的波峰中,頻帶較寬的部分被視為時(shí)變寬帶噪聲,頻帶較窄的部分則被當(dāng)成時(shí)變音調(diào),也就是所謂的音樂噪

71、聲。</p><p>  我們改善的算法為: </p><p>  其中, 是所求的語音幅度譜, 是帶噪語音幅度譜, 是估計(jì)的噪聲幅度譜。當(dāng) ,改善的算法通過消除那些寬波峰,去除所有的寬頻帶噪聲。然后,提高頻譜下限,使得波峰與波峰間的波谷不會那么深。兩者結(jié)合,使噪聲波峰間的頻譜偏移不再那么大,從而減少了音樂噪聲。</p><p>  維納濾波法原理及其算法實(shí)現(xiàn)

72、過程</p><p>  本章我們深入研究了傳統(tǒng)的維納濾波算法,發(fā)現(xiàn)傳統(tǒng)的維納濾波算法雖然具有一定的語音增強(qiáng)效果,但是其濾波效果還不夠理想。文章結(jié)合先驗(yàn)概率理論對算法進(jìn)行了改進(jìn),并將實(shí)驗(yàn)結(jié)果與傳統(tǒng)的維納濾波語音增強(qiáng)算法進(jìn)行比較,實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的語音增強(qiáng)算法的去噪效果要比傳統(tǒng)的維納濾波算法優(yōu)越。</p><p><b>  4.1 概述</b></p>

73、<p>  維納濾波器是以最小均方誤差準(zhǔn)則設(shè)計(jì)的數(shù)字濾波器,其輸入端是帶噪語音信號,輸出端則是對帶噪語音信號中所含純凈語音信號的估計(jì)。因此維納濾波器又被稱作是一個(gè)最佳濾波器。</p><p>  在信號處理中,維納濾波器對所處理的信號有比較苛刻的要求,信號必須滿足平穩(wěn)性,維納濾波器是在平穩(wěn)條件最小均方誤差意義下的最優(yōu)估計(jì)。但是通常情況下語音信號并不滿足平穩(wěn)性,實(shí)際環(huán)境中的噪聲也是非平穩(wěn)的。而且維納濾

74、波模型也沒有完全利用語音生成模型來抑制噪聲。</p><p>  維納濾波法是通過估計(jì)噪聲和帶噪語音信號的功率譜,構(gòu)造維納濾波器的傳遞函數(shù),然后從帶噪語音功率譜中計(jì)算純凈語音信號的功率譜,然后再利用帶噪語音頻譜的相位,經(jīng)過傅里葉反變換來恢復(fù)增強(qiáng)后的語音信號。維納濾波算法通常采用最小均方誤差(LMS)準(zhǔn)則來迭代估計(jì)其傳遞函數(shù)。這種方法的關(guān)鍵是如何得到語音信號中的噪聲。目前較常用的方法是用幀間無語音段噪聲來估計(jì)帶噪聲

75、語音段的噪聲,這樣處理雖然能夠簡化算法的復(fù)雜度,但是會影響維納濾波效果。</p><p>  4.2 維納濾波基本思想</p><p>  設(shè)有一個(gè)線性系統(tǒng),它的單位脈沖響應(yīng)是h(n),當(dāng)輸入一個(gè)觀測得到的隨機(jī)信號,簡稱觀測值x(n),且該信號包含噪聲信號w(n)和語音信號s(n),其信號的模型如式(4-1)所示:</p><p><b>  (4-1)

76、</b></p><p>  那么輸出為y(n)為:</p><p><b> ?。?-2) </b></p><p>  我們希望輸出得到的y(n)與有用信號s(n)盡量接近,因此稱y(n)為</p><p>  s(n)的估計(jì)值,用s?(n)來表示,我們就有了維納濾波器的系統(tǒng)框圖,如圖2-1。這個(gè)系統(tǒng)的單

77、位脈沖響應(yīng)也稱為對于s(n)的一種估計(jì)器。 </p><p>  x(n) = s(n) + w(n) y(n) = s?(n)</p><p>  圖4-1 維納濾波器的原理框圖</p><p>  如果該系統(tǒng)是因果系統(tǒng),式(2-2)的m=0,1,2,…n,則輸出的y(n)可以看成是當(dāng)前時(shí)刻的觀測值和過去時(shí)刻的觀測值x(n-1)、x(n-2)、x(n-3)…

78、的估計(jì)值。從圖4-1 的系統(tǒng)框圖中估計(jì)到的信號和我們期望得到的有用信號s(n)不可能完全相同,這里用e(n)來表示真值和估計(jì)值之間的誤差</p><p>  (4-3) 顯然e(n)是隨機(jī)變量,維納濾波的誤差準(zhǔn)則就是最小均方誤差準(zhǔn)則</p><p>  (4-4) 維納濾波法是根據(jù)全部過去觀測值和當(dāng)前觀測值來估計(jì)信號的當(dāng)前值,因此它的解析形式是系統(tǒng)的傳遞函數(shù)H(z)或單位脈沖響應(yīng)h(n)。

79、</p><p>  可見設(shè)計(jì)維納濾波器就是尋求在最小均方誤差下濾波器的單位脈沖響應(yīng) h(n)或傳遞函數(shù)H(z)的表達(dá)式,其實(shí)質(zhì)就是解維納-霍夫(Wiener-Hopf)方程。求解維納-霍夫(Wiener-Hopf)方程可得: </p><p>  (4-5) (4-6)</p><p>  其中Rss 表示有用信號s

80、的自相關(guān)函數(shù), Rww表示噪聲信號w 的自相關(guān)函數(shù),N 表示濾波器的階數(shù)。然后可以根據(jù)式(4-5)跟(4-6)及所要求的均方誤差精度來計(jì)算維納濾波器的單位脈沖響應(yīng)h(n)。</p><p>  由式(4-5)跟(4-6)不難看出維納濾波器的精度與收斂快慢都與維納濾波器的階數(shù)有直接的關(guān)系,要想降低均方誤差,即要想使輸出的信號與目標(biāo)信號更加接近,就需要增加維納濾波器的階數(shù)。然而,當(dāng)增加濾波器的階數(shù)時(shí),又會增加計(jì)算量,

81、從而降低了濾波器的收斂速度,也就導(dǎo)致濾波效率的下降。</p><p>  維納濾波在時(shí)域的解是平穩(wěn)條件下時(shí)域波形在最小均方誤差準(zhǔn)則下的估計(jì)。由于沒只考慮到語音頻譜分量的幅度對人的聽覺最重要,沒有考慮到相位對人聽覺的影響,因此采用維納濾波來增強(qiáng)語音存在一定的缺陷。</p><p>  4.3 維納濾波增強(qiáng)算法</p><p>  利用維納濾波器對信號進(jìn)行最小均方誤差條

82、件下的最優(yōu)估計(jì)時(shí),信號必須滿足平穩(wěn)性條件。語音信號不滿足平穩(wěn)性條件,只在30ms 內(nèi)近似平穩(wěn)。因此在進(jìn)行維納濾波前,必須對語音信號進(jìn)行短時(shí)處理,例如加短時(shí)窗,使語音信號幀長不超過30ms。</p><p>  設(shè)離散帶噪語音信號序列模型為:</p><p>  (4-7) 其中x,s,w 分別表示帶噪語音信號,純凈語音信號,加性噪聲信號,s 與w 統(tǒng)計(jì)獨(dú)立。且設(shè)x 已經(jīng)過加窗處理,為

83、短時(shí)平穩(wěn)的帶噪語音信號。那么非因果維納濾波器的頻率響應(yīng)函數(shù)為:</p><p>  (4-8)其中, 分別表示信號s, n 的功率譜。</p><p><b>  廣義的維納濾波器:</b></p><p>  (4-9)此時(shí)的維納濾波器稱為帶參數(shù)的維納濾波器,其中α 和β 是參數(shù)。當(dāng)α 和β 的值變化的時(shí)候,濾波器具有不同的性質(zhì)。由于語音信號

84、的不平穩(wěn)性,信號的功率譜無法直接計(jì)算,所以廣義的維納濾波器也常表達(dá)為:</p><p><b>  (4-10)</b></p><p><b>  4.4 仿真結(jié)果</b></p><p>  下面是對一幀信號的仿真結(jié)果:</p><p><b>  4.5本章小結(jié)</b>&

85、lt;/p><p>  維納濾波器能夠保證在平穩(wěn)條件下最小均方誤差(MMSE)意義下的最優(yōu)估計(jì)。但是通常一段語音信號并不滿足平穩(wěn)的條件,它的方差具有時(shí)變性。例如,人在講話時(shí),若以30ms 長度的短時(shí)幀進(jìn)行統(tǒng)計(jì),其方差變化在1 秒鐘內(nèi)就可能超過40dB。但如果對語音信號進(jìn)行加窗處理,即將一段語音信號分割成若干個(gè)短時(shí)幀,只要時(shí)間窗的長度不超過30ms,那么就可以認(rèn)為每一個(gè)短時(shí)窗內(nèi)的語音信號近似平穩(wěn),這樣就滿足了維納濾波使

86、用條件,從而可以分別對每一幀語音信號進(jìn)行維納濾波。</p><p>  本章對維納濾波語音增強(qiáng)算法進(jìn)行了研究,并對維納濾波算法進(jìn)行了改進(jìn),通過仿真實(shí)驗(yàn),得到了比較好的效果。我們采用維納濾波最大的好處是增強(qiáng)后的殘留噪聲類似于白色噪聲,而不是有節(jié)奏起伏的音樂噪聲。但是維納濾波只在平穩(wěn)條件下才能保證在最小均方誤差意義下的最優(yōu)估計(jì)。而語音是非平穩(wěn)的,只在較短時(shí)間內(nèi)近似平穩(wěn),實(shí)際環(huán)境中的噪聲也常是非平穩(wěn)的。</p&g

87、t;<p>  在仿真實(shí)驗(yàn)的基礎(chǔ)上,將兩種語音增強(qiáng)算法進(jìn)行比較,實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的維納濾波強(qiáng)算法的去噪效果以及主觀試聽效果要比傳統(tǒng)的維納濾波算法要好一些。</p><p>  第五章 小波變換法原理及其算法實(shí)現(xiàn)過程</p><p>  5.1人耳的感知特性</p><p>  語音的聽覺感知是一個(gè)復(fù)雜的人腦——心理過程,目前對聽覺感知的研究還很不成

88、熟。聽覺感知主要在測試響度、基音和掩蔽效應(yīng)等。</p><p>  響度是頻率和強(qiáng)度級的函數(shù),取決于聲音的幅度,主要是聲壓的函數(shù),與聲音的頻率和波形也有關(guān);基音的物理單位是Hz,與聲音的頻率有關(guān),頻率越高聽起來基音越高,頻率越低聽起來基音越低,響度和基音之間具有互補(bǔ)的關(guān)系;掩蔽效應(yīng)是指一個(gè)聲音的聽覺感受性受同時(shí)存在的另外一個(gè)聲音的影響。根據(jù)兩個(gè)聲音的時(shí)間關(guān)系,聽覺掩蔽效應(yīng)可分為同時(shí)掩蔽和短時(shí)掩蔽。</p&g

89、t;<p>  語音感知問題涉及到生理學(xué)、心理學(xué)、聲學(xué)和語音學(xué)等諸多領(lǐng)域,這是一個(gè)復(fù)雜的問題,有待進(jìn)一步研究。但目前已有一些結(jié)論可以應(yīng)用于語音增強(qiáng)[14]:</p><p>  (1)人耳對語音的感知是通過語音信號中各頻譜分量幅度獲取的,對各分量的相位則不敏感。</p><p> ?。?)人耳對頻譜分量強(qiáng)度的感受是頻率與能量譜的二元函數(shù),響度與頻譜幅度的對數(shù)成正比。</

90、p><p> ?。?)人耳對頻率高低的感受近似與該頻率的對數(shù)值成正比。</p><p>  (4)人耳有掩蔽效應(yīng)即強(qiáng)信號對弱信號有掩蓋的抑制作用。掩蔽的程度是聲音強(qiáng)度與頻率的二元函數(shù)。對頻率臨近分量的掩蔽要比頻差大的分量有效得多。</p><p> ?。?)短時(shí)譜中的共振峰對語音的感知十分重要,特別是第二共振峰比第一共振峰更為重要,因此對語音信號進(jìn)行一定程度的高通濾波不

91、會對可懂度造成影響。</p><p> ?。?)人耳在兩人以上的講話環(huán)境中有能力分辨出需要聆聽的聲音。</p><p>  5.2 Bark域頻率描述</p><p>  人聽覺器官分為三個(gè)部分:外耳,中耳和內(nèi)耳。外耳和中耳對外面?zhèn)鱽淼穆曇暨M(jìn)行增強(qiáng)和補(bǔ)償,內(nèi)耳耳蝸的基底膜對聲音進(jìn)行接收和頻率分解。聲音從振動(dòng)轉(zhuǎn)換成神經(jīng)脈沖就在耳蝸內(nèi)完成。</p><

92、;p>  1960年,G.Von.Bekesy用正弦信號對基底膜進(jìn)行了詳細(xì)的研究,發(fā)現(xiàn)基底膜對聽覺的響應(yīng)與刺激的頻率有關(guān)。當(dāng)頻率較低時(shí),靠近耳蝸尖部的基底膜響應(yīng)。當(dāng)頻率較高時(shí),靠近圓形窗的窄而緊的基底膜產(chǎn)生響應(yīng)?;啄ゎl率響應(yīng)的空間分布,導(dǎo)致基底膜上不同位置的柯替氏器官的纖毛細(xì)胞對不同頻率的聲音引起彎曲,從而刺激附近的聽覺神經(jīng)末梢,產(chǎn)生電化學(xué)脈沖,并沿聽覺神經(jīng)束傳送到大腦。</p><p>  下面給出頻率

93、群的概念:將基底膜分解為許多小段,每一小段稱為一個(gè)頻率群。在20Hz~16kHz范圍內(nèi)頻率可以分為24個(gè)頻率群。同一頻率群的聲音在大腦中是疊加在一起評價(jià)的,具有一致的心理聲學(xué)特征。頻率由低到高,將頻率群順序編號,將編號定義為新的頻率單位Bark。記Bark域的頻率變量為t,赫茲域頻率變量為p,那么有 </p><p>  t=26.81p/(p+1960)-0.53

94、 5.1 Bark域的頻率可以充分反映人耳的聽覺特性,因此在語音信號處理領(lǐng)域得到廣泛</p><p>  5.3 Bark尺度小波包分解</p><p>  在小波包中任意選取一組可以組成L2(R)的正交基對信號進(jìn)行分解,可以根據(jù)信號的特征,自適應(yīng)地選擇頻帶,使頻率分解方式更加靈活。小波包的這一特點(diǎn)使其能夠模擬人耳的Bark域頻率描述。</p><p>

95、  根據(jù)小波包的函數(shù)空間正交剖分理論,可以構(gòu)造與人耳Bark域頻率描述相似的小波包分解結(jié)構(gòu),稱之為“Bark尺度小波包分解”。常規(guī)方法是模擬人耳的24個(gè)頻率群,對于8kHz采樣的語音信號,選取1至17個(gè)頻率群,得到的每個(gè)子帶的中心頻率相差1Bark。實(shí)驗(yàn)證實(shí),如果對Bark域進(jìn)行進(jìn)一步分解,使每個(gè)子帶的中心頻率相差減至四分之一 Bark,對語音的描述會更加細(xì)致,也不會導(dǎo)致較大的計(jì)算量[15]。所以,本論文采用68個(gè)子頻帶的小波包分解樹結(jié)

96、構(gòu)如圖5.1所示。</p><p>  圖5.1 Bark尺度小波包分解結(jié)構(gòu)示意圖</p><p>  5.4 小波閾值去噪法</p><p>  1995年Donoho首次提出了基于閾值的小波去噪算法,主要思想是:利用閾值對經(jīng)過變換后的小波系數(shù)進(jìn)行處理,將對應(yīng)于噪聲的小波系數(shù)置為零,保留對應(yīng)于信號的小波系數(shù),然后對處理后的小波系數(shù)進(jìn)行重構(gòu),得到有效信號的最優(yōu)估計(jì)。

97、下面給出小波變換語音增強(qiáng)系統(tǒng)的圖。</p><p>  圖5.2 小波變換語音增強(qiáng)系統(tǒng)</p><p>  基于小波變換的語音增強(qiáng)算法的關(guān)鍵在于閾值的選取以及如何進(jìn)行閾值處理,如果閾值選的過高,會使信號丟失過多的細(xì)節(jié),導(dǎo)致信號失真;如果閾值選的過低,則不能達(dá)到去噪的目的。</p><p>  5.4.1 軟、硬閾值函數(shù)</p><p><

98、;b>  1. 軟閾值函數(shù)</b></p><p><b>  (5.2)</b></p><p>  其中d為小波系數(shù),為閾值。由式(5.2)可知,當(dāng)小波系數(shù)的絕對值大于等于閾值時(shí),閾值函數(shù)等于小波系數(shù)的絕對值減去閾值;當(dāng)小波系數(shù)的絕對值小于閾值時(shí),閾值函數(shù)就為0。</p><p>  圖5.3 軟閾值函數(shù)</p>

99、;<p><b>  2. 硬閾值函數(shù)</b></p><p><b>  (5.3)</b></p><p>  由式 (5.3)可知,當(dāng)小波系數(shù)的絕對值大于閾值時(shí),閾值函數(shù)等于小波系數(shù);當(dāng)小波系數(shù)的絕對值小于等于閾值時(shí),閾值函數(shù)就為0。</p><p><b>  為符號函數(shù),</b>

100、;</p><p><b>  (5.4)</b></p><p>  圖5.4 硬閾值函數(shù)</p><p>  由圖5.3和圖5.4可以看出軟閾值函數(shù)雖然整體連續(xù)性好,但會丟掉某些特征,這將直接影響重構(gòu)信號與真實(shí)信號的逼近程度;硬閾值函數(shù)整體不連續(xù),直接導(dǎo)致了會在去噪后的信號中出現(xiàn)突變的震蕩點(diǎn),當(dāng)噪聲水平較高時(shí)尤為明顯。同時(shí)軟、硬閾值函數(shù)都是

101、分段函數(shù),導(dǎo)數(shù)不連續(xù),沒有二階以上的連續(xù)導(dǎo)數(shù)。</p><p>  5.4.2 新閾值函數(shù)</p><p>  鑒于軟、硬閾值函數(shù)的缺點(diǎn),通過大量實(shí)驗(yàn)仿真本論文提出一種新的閾值函數(shù)如下:</p><p> ?。?.4)其中。仿真實(shí)驗(yàn)表明,相對于軟、硬閾值函數(shù),新閾值函數(shù)有良好的去噪效果,能更好的反應(yīng)原始信號的特征。</p><p>  5.4

102、.3小波函數(shù)的選取</p><p>  對傅立葉變換而言,變換基是唯一的,沒有最優(yōu)基的問題。小波變換則不然因?yàn)橛斜姸嗟男〔ê瘮?shù)可供選擇,從而使得同一信號可以在不同的變換基上展開,得到不同的展開結(jié)果。因此在進(jìn)行小波變換時(shí),選擇一個(gè)適當(dāng)?shù)男〔ê瘮?shù)是很重要的。對于如何選擇小波函數(shù)并無定論,通??紤]的是變換的有效性、通用性和系數(shù)的唯一性。</p><p>  對于正交小波而言,可以考慮的變化因素有

103、兩個(gè),一個(gè)是支撐度,另外一個(gè)是消失矩階數(shù)。支撐有限的緊支撐正交小波基的重要性在于它在數(shù)字信號的分解過程中可以提供有限的從而更實(shí)際、更具體的數(shù)字濾波器。支撐越長,則頻率分辨率越高,頻帶間干擾減小,但時(shí)域分辨率變差,變換的計(jì)算量也增大。消失矩則定義了小波變換的有效性,消失矩越高則變換系數(shù)衰減越快,從而變換更有效。對于支撐長度為2N的正交小波函數(shù),其消失矩階數(shù)最高為N。Daubechies小波即為具有最高消失矩的緊支正交小波。</p&g

104、t;<p>  進(jìn)行語音增強(qiáng)時(shí),必須考慮運(yùn)算量、時(shí)域分辨力、頻率分辨力等因素。</p><p>  綜合第三章所討論的小波基函數(shù)可知,Haar小波不是連續(xù)可微的,應(yīng)用有限,多用于理論研究。Meyer小波是正交、雙正交的,不存在緊支集。CoifN,symN小波計(jì)算量均較大,不利于實(shí)時(shí)實(shí)現(xiàn)。biorNr.Nd小波的分解性和重構(gòu)性好,但沒有正交性并且計(jì)算量較大。Morlet小波是復(fù)值小波,能夠提取信號中的

105、幅值和相位信息,在地球物理信號處理中廣泛應(yīng)用,但是尺度函數(shù)不存在,也不具備正交性,只能滿足連續(xù)小波的允許條件,也不存在緊支集,不能做正交小波變換和離散小波變換(DWT)。所以,本文選擇Daubechies小波db5進(jìn)行小波變換,這是在時(shí)域分辨率和頻域分辨率之間的一個(gè)折衷。仿真結(jié)果表明,這個(gè)選擇比較合理。</p><p>  5.5 小波閾值的設(shè)定</p><p>  閾值的設(shè)定是小波域閾值

106、信號增強(qiáng)算法的關(guān)鍵,閾值的設(shè)定通常有四種,即通用閾值規(guī)則,Stein的無偏似然估計(jì),啟發(fā)式閾值規(guī)則和極值閾值規(guī)則等。</p><p>  Sqtwolog閾值</p><p>  Sqtwolog采用固定閾值為,其中N是信號長度。</p><p>  Rigrsure閾值</p><p>  Rigrsure閾值是基于Stein的無偏似然估計(jì)

107、的自適應(yīng)閾值,是軟件閾值估計(jì)器。先求出給定閾值的似然估計(jì),再把非似然的閾值最小化就得到所選閾值。具體算法如下:</p><p>  ①將信號f(n)的每個(gè)元素取絕對值由小到大排序,再對各個(gè)元素平方得到: </p><p><b>  (5.5)</b></p><p> ?、谌¢撝禐榈牡趉個(gè)元素的平方根:那么該閾值產(chǎn)生的風(fēng)險(xiǎn)為:</p&g

108、t;<p> ?。?.6) </p><p> ?、塾墒剑?.6),令kmin是最小風(fēng)險(xiǎn)點(diǎn)所對應(yīng)的值,則閾值</p><p><b>  heursure</b></p><p>  啟發(fā)式閾值是Sqtwolog閾值和Rigrsure閾值的綜合,當(dāng)f(n)的信噪比小時(shí),采用啟發(fā)式閾

109、值。</p><p>  如果A<B,就選,如果A>B,就選和Rigrsure閾值中較小的為啟發(fā)式閾值的選定閾值。</p><p><b>  極值閾值</b></p><p>  極值原理是使估計(jì)的最大風(fēng)險(xiǎn)最小化。閾值是:</p><p> ?。?.7)以上閾值選取都沒有涉及噪聲方差,用魯棒估計(jì)計(jì)算就是&l

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論