版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、<p> 本科畢業(yè)設(shè)計(jì)(論文)</p><p> 論文題目 盲信號(hào)語(yǔ)音分離技術(shù)的研究與實(shí)現(xiàn) </p><p> Research and Implementation of the Voice Separation Technology for Blind Signal</p><p> 盲信號(hào)語(yǔ)音分離技術(shù)的研究與實(shí)現(xiàn)</p>
2、<p> 摘要:近年來(lái)語(yǔ)音信號(hào)的分離越來(lái)越受到大家的關(guān)注,它在助聽(tīng)器及便攜設(shè)備、電話會(huì)議、各種語(yǔ)音識(shí)別方面有很多的應(yīng)用和影響,且語(yǔ)音分離的處理方法經(jīng)常在語(yǔ)音識(shí)別中得到實(shí)踐。其中“盲”是指不知道源語(yǔ)音信號(hào)的分布和傳輸信道的參數(shù)。盲信號(hào)語(yǔ)音分離的理論基礎(chǔ)是ICA獨(dú)立分量分析,ICA可以廣泛的應(yīng)用于圖像、通信、生物醫(yī)學(xué)、聲納、地震等多種類型信號(hào)的處理中。</p><p> 文章首先闡述了語(yǔ)音信號(hào)的特征,介
3、紹了獨(dú)立分量分析的理論算法。在此基礎(chǔ)上,對(duì)傳統(tǒng)的自適應(yīng)語(yǔ)音信號(hào)盲分離EASI算法進(jìn)行了詳細(xì)的研究,由于EASI算法采用的是固定步長(zhǎng),其收斂速度和分離性能不能達(dá)到最佳結(jié)合。所以,本文提出了一種基于EASI算法的改進(jìn)的變步長(zhǎng)自適應(yīng)的語(yǔ)音信號(hào)盲分離算法,可以很好的解決收斂速度和分離性能之間的矛盾,并對(duì)其進(jìn)行了算法性能仿真實(shí)驗(yàn)。最終通過(guò)實(shí)驗(yàn)結(jié)果表明,改進(jìn)的自適應(yīng)盲分離算法優(yōu)于傳統(tǒng)的EASI算法。</p><p> 關(guān)鍵
4、詞:盲信號(hào)處理;獨(dú)立分量分析;EASI算法;變步長(zhǎng)自適應(yīng)盲分離算法</p><p> RESEARCH AND IMPLEMENTATION OF THE VOICE SEPARATION TECHNOLOGY FOR BLIND SIGNAL</p><p> Abstract: Speech separation has been a hot topic in voice sign
5、al processing society recently years, which has many applications and influences in telephone conference, hearing aid, portable devices, speech recognition. The process of blind signal is a useful method in speech separa
6、tion, in which the term “blind” means that the source itself and the transmission channel is unknown. Independent component analysis is the theoretical basis of blind signal separation, which can be used in various sig&l
7、t;/p><p> At first, the paper analyzes the theory and algorithm of Independent Component Analysis. On this basis, EASI algorithm was focused detail. As EASI algorithm used in a fixed step, so it does not achie
8、ve the best combination of the convergence rate and the separated performance. Therefore, an improved Variable step adaptive blind source separation based ICA algorithm was proposed. So it can improve convergence speed a
9、nd reduce the maladjustment error in the steady state simultaneously. Eventually,</p><p> Keyword: Blind Signal Processing;Independent Component Analysis;EASI Algorithm;Variable Step Adaptive Blind Source S
10、eparation Based ICA Algorithm</p><p><b> 目 錄</b></p><p><b> 1 緒論1</b></p><p> 1.1 研究背景1</p><p> 1.2 國(guó)內(nèi)外研究現(xiàn)狀2</p><p> 1.3
11、研究的目的和意義4</p><p> 1.4 本文的主要內(nèi)容及工作安排5</p><p> 2 盲信號(hào)語(yǔ)音分離的概要研究5</p><p> 2.1語(yǔ)音信號(hào)的概述5</p><p> 2.1.1語(yǔ)音的特性5</p><p> 2.1.2語(yǔ)音信號(hào)的特征6</p><p>
12、2.2 語(yǔ)音分離的數(shù)學(xué)模型6</p><p> 2.3 語(yǔ)音分離的研究?jī)?nèi)容7</p><p> 2.4 語(yǔ)音分離的研究方法8</p><p> 2.4.1 獨(dú)立分量分析8</p><p> 2.4.2 對(duì)源語(yǔ)音信號(hào)的概率密度函數(shù)進(jìn)行估計(jì)10</p><p> 2.4.3 目標(biāo)函數(shù)的選取和優(yōu)化算法1
13、1</p><p> 2.4.4 語(yǔ)音分離的評(píng)價(jià)指標(biāo)13</p><p> 2.4.5 ICA數(shù)據(jù)的預(yù)處理14</p><p> 2.5盲信號(hào)語(yǔ)音分離的主要流程16</p><p> 2.6本章小結(jié)17</p><p> 3 盲信號(hào)語(yǔ)音分離的詳細(xì)設(shè)計(jì)18</p><p>
14、3.1 傳統(tǒng)的EASI算法分析18</p><p> 3.1.1 EASI算法18</p><p> 3.1.2 算法的流程19</p><p> 3.1.3 串音誤差ECT21</p><p> 3.1.4 算法中的步長(zhǎng)因子u21</p><p> 3.2 改進(jìn)的自適應(yīng)盲分離算法21</p
15、><p> 3.2.1 改進(jìn)算法的分析22</p><p> 3.2.2 改進(jìn)的自適應(yīng)盲分離算法的流程22</p><p> 3.2.3 改進(jìn)算法的串音誤差ECT23</p><p> 3.3 本章小結(jié)24</p><p> 4 盲信號(hào)語(yǔ)音分離算法的仿真實(shí)驗(yàn)24</p><p>
16、 4.1 語(yǔ)音分離算法的實(shí)現(xiàn)24</p><p> 4.1.1 實(shí)現(xiàn)平臺(tái)24</p><p> 4.1.2 運(yùn)行環(huán)境25</p><p> 4.2 盲信號(hào)語(yǔ)音分離的算法仿真實(shí)驗(yàn)25</p><p> 4.2.1 EASI算法仿真實(shí)驗(yàn)25</p><p> 4.2.2 改進(jìn)的自適應(yīng)盲分離算法仿真實(shí)驗(yàn)
17、26</p><p> 4.3 兩種算法分離結(jié)果的對(duì)比分析28</p><p> 4.3.1串音誤差ECT的比較28</p><p> 4.3.2 信噪比SNR的比較29</p><p> 4.4 本章小結(jié)29</p><p> 5 總結(jié)與展望30</p><p><
18、b> 5.1 總結(jié)30</b></p><p><b> 5.2 展望31</b></p><p><b> 致謝32</b></p><p><b> 參考文獻(xiàn)33</b></p><p><b> 1 緒論</b>&
19、lt;/p><p><b> 1.1研究背景</b></p><p> 由于計(jì)算機(jī)技術(shù)的快速發(fā)展,社會(huì)逐步進(jìn)入了數(shù)字化的時(shí)代。數(shù)字信號(hào)處理技術(shù)作為“后起之秀”很快在通信以及地震探測(cè)等多個(gè)領(lǐng)域得到了廣泛的應(yīng)用,而盲信號(hào)語(yǔ)音分離作為數(shù)字信號(hào)處理中的一種新興技術(shù)是最近二十年才發(fā)展起來(lái)的。</p><p> 20世紀(jì)末21世紀(jì)初,人類生活水平明顯提高
20、,因此對(duì)于新技術(shù)的要求也顯著提高。而盲信號(hào)的分離問(wèn)題對(duì)于我們顯得尤為重要。同時(shí)在語(yǔ)音通信[1]、生物醫(yī)學(xué)、數(shù)據(jù)挖掘模式識(shí)別和聲納探測(cè)等各個(gè)領(lǐng)域中,盲源分離[2]的研究都具有非常重要的理論價(jià)值和實(shí)際意義。</p><p> “雞尾酒會(huì)”問(wèn)題就是一個(gè)典型的盲信號(hào)語(yǔ)音分離的例子,它可以表述為在眾多的談話和背景噪聲中,集中人們的聽(tīng)力于某個(gè)談話者聲音上的能力。在酒會(huì)上,我們通過(guò)多個(gè)麥克風(fēng)采集到同時(shí)講話的人的語(yǔ)音信號(hào)和許多
21、噪聲信號(hào),這些信號(hào)可以稱之為源信號(hào);進(jìn)而獲得多路混合的語(yǔ)音信號(hào),為觀測(cè)信號(hào);因?yàn)槭怯稍诓粩噙\(yùn)動(dòng)的人們發(fā)出的這些語(yǔ)音信號(hào),所以混合信號(hào)的信道是無(wú)法確定的,這種僅利用源信號(hào)的統(tǒng)計(jì)特性和觀測(cè)信號(hào)恢復(fù)出每個(gè)人的語(yǔ)音的過(guò)程就是盲信號(hào)的語(yǔ)音分離[1]。如圖1-1所示。</p><p> 圖1-1 語(yǔ)音信號(hào)的盲分離示意圖</p><p> 在一大堆不同的信號(hào)中,我們可以忽略其他的干擾噪聲,僅僅根據(jù)自
22、己的喜好選擇出我們感興趣的信號(hào)來(lái)接受,這是一個(gè)有趣的問(wèn)題。這種特殊的辨別能力也許是由人類發(fā)聲系統(tǒng)、聽(tīng)覺(jué)系統(tǒng)或者更為高級(jí)的知覺(jué)和語(yǔ)言處理的特性所決定的,然而這些知識(shí)假設(shè),這種機(jī)制到底是由什么決定的,還需要我們?nèi)ミM(jìn)一步的探索。</p><p> 盲源分離(Blind Source Spearation,BSS)所指的是在源信號(hào)和傳輸通道參數(shù)未知的情況下,根據(jù)源信號(hào)的統(tǒng)計(jì)特性,僅由觀測(cè)信號(hào)恢復(fù)出源信號(hào)各個(gè)獨(dú)立成分的過(guò)
23、程[3]。我們可以從盲源分離的概念中看出這里的術(shù)語(yǔ)“盲”有兩重含義,不知道源信號(hào)是如何混合的且傳輸通道的參數(shù)也是未知的[4]。</p><p> 1.2 國(guó)內(nèi)外研究現(xiàn)狀</p><p> 從語(yǔ)音分離[1]的角度看,語(yǔ)音信號(hào)盲分離算法的研究主要經(jīng)過(guò)了三個(gè)階段。第一個(gè)階段是盲信號(hào)語(yǔ)音分離理論的形成時(shí)期,這個(gè)時(shí)期的學(xué)者們致力于研究平穩(wěn)的語(yǔ)音信號(hào)的瞬時(shí)盲分離問(wèn)題。第二個(gè)階段是上世紀(jì)九十年代中后
24、期,大家的目光開(kāi)始轉(zhuǎn)移到非平穩(wěn)信號(hào)的瞬時(shí)語(yǔ)音分離[5]。第三個(gè)階段是從本世紀(jì)初至今,學(xué)者們漸漸關(guān)注研究卷積混合模型的語(yǔ)音信號(hào)分離。</p><p> 總的來(lái)說(shuō),盲信號(hào)語(yǔ)音分離問(wèn)題的研究?jī)?nèi)容大體上可以劃分為四部分:卷積混疊語(yǔ)音分離、瞬時(shí)線性混疊語(yǔ)音分離、語(yǔ)音分離的應(yīng)用和非線性混疊語(yǔ)音分離 [6]。到目前為止,在大多數(shù)的研究中,討論得最多的是瞬時(shí)線性混疊語(yǔ)音分離和卷積混疊語(yǔ)音分離。瞬時(shí)線性混疊語(yǔ)音分離代表性的算法主
25、要有:Bell-Sejnowski的最大信息量(Infomax)方法、Amari的自然梯度(Natural Gradient)方法、Cardoso的等變化自適應(yīng)方法(EASI)、Hyvarinen的快速獨(dú)立元分析算法(FastICA)、矩陣特征值分解方法等。其它的語(yǔ)音發(fā)呢里算法大都是在以上算法的基礎(chǔ)上推廣或者補(bǔ)充而發(fā)展起來(lái)的,當(dāng)然語(yǔ)音分離并不僅僅局限于這些算法。優(yōu)化算法經(jīng)常在語(yǔ)音分離中被使用,就優(yōu)化手法而言[2],Infomax算法、自
26、然梯度算法、和EASI算法屬于梯度下降(上升)尋優(yōu)算法,收斂速度是線性的,速度略慢一些,但屬于自適應(yīng)方法、具有實(shí)時(shí)在線處理能力;FastICA算法是一種快速而數(shù)值穩(wěn)定的方法,采用擬牛頓算法實(shí)現(xiàn)尋優(yōu),沒(méi)有迭代尋優(yōu)過(guò)程,因此運(yùn)行速度最快。相比卷積混疊語(yǔ)音分離和瞬時(shí)線性混疊語(yǔ)音分離, 非線性混疊語(yǔ)音分</p><p> 其中獨(dú)立分量分析[8] (Independent Component Analysis, 簡(jiǎn)稱IC
27、A) 是研究盲源分離問(wèn)題過(guò)程中出現(xiàn)的一種新方法。所謂ICA, 就是要尋求一種線性變換, 使信號(hào)各個(gè)分量之間高階統(tǒng)計(jì)獨(dú)立性最大。典型的ICA 算法有Amari 等的自然梯度算法[9] , Cardoso 等的EASI 算法等, 離線算法有Lee T. W. 等人提出的擴(kuò)展Infomax 算法[10] 和Hy varinen 的Fast ICA 算法[10]等。本文將研究用EASI算法解決盲信號(hào)語(yǔ)音分離問(wèn)題。</p><
28、p> 例如,2000年,Parra提出了基于頻域去輸出信號(hào)相關(guān)性的算法,不僅得到了好的分離效果,而且算法的收斂速度也非??臁?傮w上,這類文章可以分為兩部分:卷積后混合語(yǔ)音信號(hào)的盲分離和瞬時(shí)混合語(yǔ)音信號(hào)的盲分離。盲信號(hào)語(yǔ)音分離用于解決瞬時(shí)線性混合問(wèn)題目前已經(jīng)有很成熟的算法而且也得到了很好的應(yīng)用。</p><p> 近些年來(lái),我國(guó)有也有很多關(guān)于盲信號(hào)語(yǔ)音分離技術(shù)的文章相繼發(fā)表。</p><
29、;p> 我國(guó)也有許多的專家學(xué)者都致力于盲源分離的研究,已提出了許多的算法,這些算法大致分為幾種:</p><p> 2002年,蘇野平等人提出一種改進(jìn)的基于高階累積量的盲信號(hào)分離算法[11]并且被用來(lái)進(jìn)行雙路語(yǔ)音增強(qiáng),并提出了最速下降法濾波器抽頭系數(shù)更新算法。模型和實(shí)際錄音的實(shí)驗(yàn)表明所提出方法的有效性。</p><p> 2004年,桂國(guó)華,蔡青,賈鵬證明了當(dāng)源信號(hào)是非平穩(wěn)信號(hào)
30、是,使用二階統(tǒng)計(jì)計(jì)量[12]就足以成功地對(duì)混合信號(hào)進(jìn)行盲分離,從而,大大簡(jiǎn)化了計(jì)算的復(fù)雜度。據(jù)此,我們提出一種基于二階統(tǒng)計(jì)計(jì)量的盲分離算法,并在實(shí)驗(yàn)中用此算法成功地分離了語(yǔ)音和音樂(lè)的混合信號(hào)。</p><p> 2005年,李立峰提出一種快速定點(diǎn)算法,該算法的特點(diǎn)是逐個(gè)分離出每一個(gè)源信號(hào),并且收斂快,另外盲分離算法不僅能夠在主信號(hào)方向形成主波速,并且還可以在干擾信號(hào)方向形成零點(diǎn),可以大大提高信噪比。</p
31、><p> 2005年,張雪峰等[13]提出對(duì)真實(shí)環(huán)境中的混疊語(yǔ)音信號(hào)進(jìn)行盲分離是一個(gè)非常困難的任務(wù)。許多在仿真信號(hào)環(huán)境下工作很有效的算法常常不能成功地分離真實(shí)環(huán)境中錄取的混疊語(yǔ)音信號(hào)。</p><p> 2005年,金輝,陳曉署提出一種實(shí)用的語(yǔ)音分離算法-COBliss,它是一種基于二階統(tǒng)計(jì)量的多通道盲反卷積算法。但是源信號(hào)自相關(guān)函數(shù)的序列長(zhǎng)度必須足夠大,而大多數(shù)語(yǔ)音信號(hào)不滿足這一要求。
32、</p><p> 2005年,肖俊等人在Torkkola提出的分析反饋分離算法[13]的基礎(chǔ)上,提出了一種在頻域上用前饋結(jié)構(gòu)的信息最大化算法,該算法對(duì)應(yīng)于非因果FIR濾波器,為非最小相位系統(tǒng)的盲分離問(wèn)題提出了一個(gè)解決方案。最后,我們將演示用這種方法分離實(shí)際環(huán)境下的兩個(gè)自然信號(hào)。</p><p> 2005年,何文雪等利用模糊函數(shù)的時(shí)頻分布特征選取時(shí)頻點(diǎn),提出一種新的時(shí)頻域語(yǔ)音信號(hào)分離
33、算法,與傳統(tǒng)的維納時(shí)頻分布相比,不但顯著縮小了時(shí)頻點(diǎn)的選擇范圍,而且不需要設(shè)定閾值。算法利用一種非正交聯(lián)合對(duì)角化方法求取分離矩陣,在原始信號(hào)既有相互相關(guān)的情況下也能達(dá)到良好的分離性能。仿真實(shí)驗(yàn)表明,該算法難度小,分離精度高,可實(shí)現(xiàn)高斯源或相關(guān)源信號(hào)的盲分離。</p><p> 2007年,李雪霞等[5]提出了一種線性混合的混沌信號(hào)的瞬時(shí)盲信號(hào)分離方法,它利用了各個(gè)混沌信號(hào)源之間的互不相關(guān)性,在未知混合矩陣和混沌
34、方程的情況下,通過(guò)求解特征向量的方法從觀測(cè)中直接估計(jì)出解混合矩陣,以重構(gòu)出混沌信號(hào)。仿真結(jié)果表明,即使在低信噪比情況下,該方法仍可以有效地從噪聲背景中分離出多個(gè)混合的混沌信號(hào)。</p><p> 2007年,馬明等采用同倫分線性模型對(duì)語(yǔ)音信號(hào)進(jìn)行建模,將非線性可預(yù)測(cè)性作為盲源分離的準(zhǔn)則,推到了基于同倫模型的盲源算法,成功的實(shí)現(xiàn)了語(yǔ)音信號(hào)的分離。</p><p> 2007年,李大輝等給
35、出了語(yǔ)音信號(hào)分離的數(shù)學(xué)模型,并確定了可分離的假設(shè)條件和分離準(zhǔn)則,通過(guò)分析2種學(xué)習(xí)規(guī)則長(zhǎng)變化對(duì)分離效果的影響,提出改進(jìn)的學(xué)習(xí)規(guī)則,應(yīng)用改進(jìn)的學(xué)習(xí)規(guī)則實(shí)現(xiàn)自適應(yīng)算法對(duì)語(yǔ)音信號(hào)的盲分離,消除步長(zhǎng)遞減過(guò)早或過(guò)晚的現(xiàn)象,分離效果好。</p><p> 1.3 研究的目的和意義</p><p> 在工程應(yīng)用和科學(xué)研究中,許多觀測(cè)信號(hào)能假設(shè)為源信號(hào)未知的混合,如:語(yǔ)音圖像信號(hào)、通信信號(hào)、雷達(dá)信號(hào)、生
36、物醫(yī)學(xué)信號(hào)、地震信號(hào)等等[2]。比如,大部分生物醫(yī)學(xué)信號(hào)[4]都是比較微弱的非平穩(wěn)信號(hào),且容易受到噪聲干擾,所以通常都是相互層疊的。提取胎兒的ECG信號(hào)[1,4]就是從觀測(cè)信號(hào)中去除母親的心電信號(hào)和噪聲信號(hào),然后從肺信號(hào)中分離出心臟信號(hào)。在通信系統(tǒng)中,對(duì)于接收端來(lái)說(shuō),從發(fā)射端發(fā)出的信號(hào)是未知的,且由于“移動(dòng)”的原因,信道也在不斷變化[3],所以也是未知的,我們必須僅由接收信號(hào)去恢復(fù)原是信號(hào)本身。又比如在地震勘探中,震源信號(hào)和傳播信道都是
37、未知的,我們只有通過(guò)接收信號(hào)去確定地層信息。再如眾所周知的經(jīng)典的“雞尾酒會(huì)”的問(wèn)題[5],在一個(gè)都是客人的房間里,每一個(gè)人都能聽(tīng)到來(lái)自各個(gè)方向的不同種類的聲音,如音樂(lè),歌聲以及人們的說(shuō)話聲等等。而盲信號(hào)語(yǔ)音分離與傳統(tǒng)信號(hào)分離的方法最大的不同之處就在于用它可以用最少的信息得到理想的結(jié)果。</p><p> 總的來(lái)說(shuō),盲信號(hào)語(yǔ)音分離是一種僅僅利用觀測(cè)到的混合信號(hào)來(lái)估計(jì)源信號(hào)的方法,它是以獨(dú)立分量分析(Indepen
38、dent Component Analysis,ICA)[3]為理論基礎(chǔ)的。隨著數(shù)字信號(hào)處理理論和技術(shù)的發(fā)展以及相關(guān)學(xué)科的不斷深入,許多盲信號(hào)分離算法被不斷提出,使盲信號(hào)分離問(wèn)題逐漸成為當(dāng)今信息處理領(lǐng)域中最熱門的研究課題之一。而我們所要研究的盲信號(hào)語(yǔ)音分離技術(shù)雖然不可能讓計(jì)算機(jī)變得具有和人類一樣的聽(tīng)覺(jué),但是此項(xiàng)技術(shù)卻能使相互混疊的語(yǔ)音信號(hào)變成相互剝離的語(yǔ)音信號(hào),這樣可以作為語(yǔ)音識(shí)別技術(shù)的預(yù)處理技術(shù),從而使得在吵鬧的環(huán)境中混有很多的說(shuō)話聲
39、音的情形下,不同人的說(shuō)話聲音可提取出來(lái),即語(yǔ)音分離技術(shù)成為了可能。這樣就增大了識(shí)別算法的魯棒性[14]和適應(yīng)能力。但是意義不僅限于此,因此,近年來(lái)由于實(shí)際應(yīng)用的需求使得混合語(yǔ)音信號(hào)分離成了信號(hào)處理、移動(dòng)通信和神經(jīng)網(wǎng)絡(luò)、無(wú)線通信、圖像處理、地震信號(hào)處理、陣列信號(hào)處理[15]和生物醫(yī)學(xué)信號(hào)處理等領(lǐng)域得到了廣泛的應(yīng)用。</p><p> 1.4 本文的主要內(nèi)容及工作安排</p><p> 本
40、文在論述安排上主要分為以下幾個(gè)部分:</p><p> 第一章 簡(jiǎn)要介紹盲信號(hào)語(yǔ)音分離的研究背景和國(guó)內(nèi)外現(xiàn)狀以及本課題的主要研究目的和意義。</p><p> 第二章 概要介紹了語(yǔ)音信號(hào)的主要特征和盲信號(hào)語(yǔ)音分離的模型,闡述了語(yǔ)音分離的研究?jī)?nèi)容和研究方法,包括獨(dú)立分量分析的方法,獨(dú)立分量的發(fā)展史,獨(dú)立分量的約束條件,獨(dú)立分量的理論基礎(chǔ)和獨(dú)立分量分析的不同的優(yōu)化算法。</p>
41、<p> 第三章 詳細(xì)介紹了盲信號(hào)語(yǔ)音分離中基于獨(dú)立分量分析的傳統(tǒng)的EASI算法,分析了傳統(tǒng)EASI算法的串音誤差ECT,并說(shuō)明了步長(zhǎng)因子對(duì)穩(wěn)態(tài)性的影響。進(jìn)而提出了一種新的算法,改進(jìn)的自適應(yīng)盲分離算法,并對(duì)其串音誤差、步長(zhǎng)因子和穩(wěn)態(tài)性進(jìn)行了分析,介紹了新算法的流程,以及新算法的優(yōu)點(diǎn)。</p><p> 第四章 用matlab進(jìn)行仿真實(shí)驗(yàn),對(duì)數(shù)據(jù)進(jìn)行分析。</p><p>
42、 第五章 總結(jié)全文,指出自己所做工作以及設(shè)計(jì)和論文需要進(jìn)一步改進(jìn)的地方。</p><p> 2 盲信號(hào)語(yǔ)音分離的概要研究</p><p> 對(duì)于ICA研究最初是雞尾酒會(huì)的問(wèn)題,也是盲信號(hào)語(yǔ)音分離的起點(diǎn)。ICA是從多維統(tǒng)計(jì)數(shù)據(jù)中找出分量和隱含因子 [15]的方法。從線性變換角度來(lái)看,源語(yǔ)音信號(hào)是非高斯信號(hào)且相互獨(dú)立,可以當(dāng)作線性空間[16]的基礎(chǔ)信號(hào),那么觀測(cè)信號(hào)即混合后的語(yǔ)音信號(hào)就是
43、源信號(hào)的線性組合,ICA就是在傳輸信道和源語(yǔ)音信號(hào)均未知的情況下,從觀測(cè)號(hào)中估計(jì)出源語(yǔ)音信號(hào)的過(guò)程。因?yàn)槊ば盘?hào)分離是語(yǔ)音分離的主要方法,所以我們可以把盲源分離問(wèn)題轉(zhuǎn)化為語(yǔ)音分離的問(wèn)題。</p><p> 2.1語(yǔ)音信號(hào)的概述</p><p> 2.1.1語(yǔ)音的特性</p><p><b> (1)短時(shí)平穩(wěn)性</b></p>
44、<p> 根據(jù)學(xué)者們對(duì)語(yǔ)音信號(hào)的研究,發(fā)現(xiàn)語(yǔ)音是一種時(shí)變的、非平穩(wěn)的隨機(jī)過(guò)程,另一方面,我們認(rèn)為在很短的時(shí)間內(nèi)語(yǔ)音的特征是不會(huì)改變的,因?yàn)槿祟惖陌l(fā)聲系統(tǒng)的生理結(jié)構(gòu)和其變化速度是有一定限度的,所以語(yǔ)音的短時(shí)性特點(diǎn)是對(duì)語(yǔ)音信號(hào)進(jìn)行處理和分析的基礎(chǔ)。</p><p><b> (2)清音和濁音</b></p><p> 語(yǔ)音可分為清音和濁音。二者從語(yǔ)音產(chǎn)生的
45、機(jī)理上有明顯的差異,前者為周期性脈沖產(chǎn)生的,后者由隨機(jī)噪聲產(chǎn)生的,因此在特征方面的區(qū)別也很明顯。且清音類似于白噪聲。</p><p> 2.1.2語(yǔ)音信號(hào)的特征</p><p><b> ?。?)時(shí)域特征</b></p><p> 由前面的分析可知,語(yǔ)音信號(hào)是時(shí)變的,且具有短時(shí)平穩(wěn)性。因此可知,語(yǔ)音信號(hào)在時(shí)域上存在有音段和無(wú)音段。因此,通過(guò)
46、對(duì)有音段和無(wú)音段的特性檢測(cè),可以去除噪聲語(yǔ)音中的平穩(wěn)噪聲。</p><p><b> ?。?)頻域特征</b></p><p> 眾所周知,語(yǔ)音信號(hào)的頻譜能量大多集中在300-3400Hz。其中大部分能量是濁音信號(hào),其頻譜注意集中在低頻段和各次諧波上,具有明顯的周期性;而清音是隨機(jī)的,在頻譜上類似白噪聲。</p><p><b>
47、?。?)統(tǒng)計(jì)特征</b></p><p> 語(yǔ)音信號(hào)可以看作為一個(gè)隨機(jī)過(guò)程的樣本函數(shù),它的統(tǒng)計(jì)特性可以用概率密度函數(shù)來(lái)描述。</p><p> 由于語(yǔ)音信號(hào)具有以上特征,因此我們可以把語(yǔ)音信號(hào)的頻譜圖當(dāng)作源信號(hào),所以,可以把盲源分離的模型轉(zhuǎn)換為語(yǔ)音分離模型。</p><p> 2.2 語(yǔ)音分離的數(shù)學(xué)模型</p><p>
48、由上可知,盲信號(hào)分離是語(yǔ)音分離的主要方法。盲信號(hào)分離(BSS)是指源信號(hào)、傳輸通道特性未知的情況下,僅由觀測(cè)信號(hào)和源信號(hào)的一些先驗(yàn)知識(shí)(如概率密度)估計(jì)出源信號(hào)各個(gè)分量的過(guò)程。所謂“盲”包含兩個(gè)方面,源信號(hào)不可觀測(cè)和混合系統(tǒng)的特性事先未知。</p><p> 本文討論的盲信號(hào)語(yǔ)音分離算法是基于線性瞬時(shí)混合的,其基本數(shù)學(xué)模型如圖2-1所示。</p><p> 圖2-1 語(yǔ)音分離示意圖&l
49、t;/p><p> 那么語(yǔ)音分離問(wèn)題可以用下面的公式來(lái)表示:</p><p><b> (2-1)</b></p><p> 其中 是由個(gè)未知語(yǔ)音信號(hào) , 構(gòu)成的列向量, 是由個(gè)觀測(cè)向量即混合語(yǔ)音信號(hào) 構(gòu)成的列向量,為一個(gè) 階的混合矩陣, 是由個(gè)白色,高斯,統(tǒng)計(jì)獨(dú)立的噪聲信號(hào) 構(gòu)成的列向量。式(2-1)也可以寫成矩陣形式,即:</p&g
50、t;<p> 在混合矩陣和源語(yǔ)音信號(hào) 均未知的情況下,若想盡可能真實(shí)的分離出源語(yǔ)音信號(hào) ,則可構(gòu)建一個(gè)分離矩陣,那么 經(jīng)過(guò)分離矩陣變換后,即 ,其中, 為輸出列向量, 是源語(yǔ)音信號(hào)的估計(jì)。</p><p> 2.3語(yǔ)音分離的研究?jī)?nèi)容</p><p> 對(duì)于語(yǔ)音信號(hào)的分離來(lái)說(shuō),一般是選擇一個(gè)目標(biāo)函數(shù),根據(jù)特定的判斷依據(jù),調(diào)整某些參數(shù)如分離矩陣或者步長(zhǎng)因子,使我們選擇的目標(biāo)
51、函數(shù)最接近或者達(dá)到極值。而這個(gè)調(diào)整參數(shù)的過(guò)程,我們是可以通過(guò)迭代的方法來(lái)實(shí)現(xiàn)的,整個(gè)過(guò)程的細(xì)節(jié)都會(huì)直接影響語(yǔ)音分離結(jié)果的精確程度和穩(wěn)定性能。所以語(yǔ)音信號(hào)盲分離要研究的內(nèi)容包括對(duì)源語(yǔ)音信號(hào)的概率密度函數(shù)的估計(jì),優(yōu)化算法準(zhǔn)則,選取合適的目標(biāo)函數(shù),和分離算法的評(píng)價(jià)指標(biāo)等。</p><p><b> ?。?)優(yōu)化算法準(zhǔn)則</b></p><p> 目前,在語(yǔ)音信號(hào)分離的算法
52、中,一般都需要使得輸出的語(yǔ)音信號(hào)的各分量間的獨(dú)立性最大,所以我們研究的優(yōu)化算法準(zhǔn)則要達(dá)到這個(gè)目的。信息散度,負(fù)熵,互信息量等都可以用來(lái)衡量語(yǔ)音信號(hào)的獨(dú)立性。</p><p> ?。?)對(duì)源語(yǔ)音信號(hào)的概率密度函數(shù)進(jìn)行估計(jì)</p><p> 語(yǔ)音分離的很多算法中都需要知道源語(yǔ)音信號(hào)的概率密度函數(shù),但這是不可能的。因?yàn)槊ば盘?hào)語(yǔ)音分離中“盲”就是源語(yǔ)音信號(hào)不可觀測(cè)的。所以我們只能對(duì)混合的語(yǔ)音信號(hào)
53、即觀測(cè)語(yǔ)音信號(hào)進(jìn)行分析,估計(jì)出源語(yǔ)音信號(hào)的概率密度函數(shù)。</p><p><b> ?。?)目標(biāo)函數(shù)</b></p><p> 語(yǔ)音分離的目標(biāo)就是使分離后的語(yǔ)音信號(hào)彼此盡量相互獨(dú)立。所以,不同的語(yǔ)音分離效果主要體現(xiàn)在對(duì)目標(biāo)函數(shù)的選取上面。目標(biāo)函數(shù)的選擇決定了算法的統(tǒng)計(jì)特性。一般的目標(biāo)函數(shù)主要有基于極大似然估計(jì)的目標(biāo)函數(shù),基于互信息量最小化的目標(biāo)函數(shù)等。 </p
54、><p> ?。?)語(yǔ)音分離的評(píng)價(jià)指標(biāo)</p><p> 一般情況下,如果要考察一個(gè)語(yǔ)音分離算法的性能,可以從語(yǔ)音分離所需的時(shí)間、分離出語(yǔ)音的效果、算法的穩(wěn)定性能和對(duì)資源的占用情況進(jìn)行分析。</p><p> 2.4語(yǔ)音分離的研究方法</p><p> 2.4.1 獨(dú)立分量分析</p><p> 盲信號(hào)語(yǔ)音分離的最
55、主要的分析方法是獨(dú)立分量分析(independent component analysis, ICA)方法,顧名思義,就是把信號(hào)分解成若干個(gè)相互獨(dú)立的成分。ICA是屬于語(yǔ)音分離的一種方法[16]。它是利用高階統(tǒng)計(jì)工具和信息論的知識(shí)分析信號(hào)的統(tǒng)計(jì)獨(dú)立性以實(shí)現(xiàn)語(yǔ)音信號(hào)的盲分離。</p><p><b> 一、ICA的發(fā)展史</b></p><p> ICA的發(fā)展是這樣
56、一個(gè)過(guò)程[1][17]:80年代早期,該方法由J.Herault,C.Jutter與B.Ans提出來(lái)。該問(wèn)題首次出現(xiàn)在1982年的神經(jīng)生理學(xué)框架中。在80年代中期,國(guó)際性的神經(jīng)網(wǎng)絡(luò)會(huì)議上很少有ICA呈文。但在1991年C.Jutten和J.Herault首創(chuàng)將人工神經(jīng)網(wǎng)絡(luò)算法用于BSS問(wèn)題[15],開(kāi)啟了一個(gè)新領(lǐng)域。雖然他們的學(xué)習(xí)算法沒(méi)有明確指出需利用觀察信號(hào)的高階(高于二階)統(tǒng)計(jì)信息[16],但是其迭代計(jì)算公式已具備后來(lái)算法的雛形;1
57、994年,P.Comon首先界定了解決BSS問(wèn)題的ICA方法的基本假設(shè)條件(ICA這個(gè)名稱就是由他提出的)[17]。他明確指出,我們應(yīng)該通過(guò)讓某個(gè)稱為對(duì)比函數(shù)(contrast function)的目標(biāo)函數(shù)達(dá)到極大值[18]來(lái)消除觀察信號(hào)中高階統(tǒng)計(jì)的關(guān)聯(lián)問(wèn)題,從而實(shí)現(xiàn)盲源分離BSS。1995年,A.J.Bell和T.J.Sejnowski發(fā)表的有關(guān)文獻(xiàn)是ICA分析研究的熱潮的起點(diǎn)。并且證明了ICA是一種解決BSS問(wèn)題的簡(jiǎn)單、高效的算法,
58、因而帶起了一大批后續(xù)的研究工作;1996年,B.A.Pearlmutter在ICA中引入了目標(biāo)函數(shù):最</p><p> 二、ICA的約束條件</p><p> ?。?)各個(gè)源語(yǔ)音信號(hào)之間是相互統(tǒng)計(jì)獨(dú)立的。若 的概率密度函數(shù)為 ,則源語(yǔ)音信號(hào)的聯(lián)合概率密度函數(shù)(即矢量的pdf)為:</p><p><b> (2-2)</b></p&
59、gt;<p> 信號(hào)源獨(dú)立的假設(shè)是比較合理的,因?yàn)橹灰l(fā)出信號(hào)的源語(yǔ)音在物理上是相互分離的[13],彼此間不交換信息,那么我們就認(rèn)為它們產(chǎn)生的源語(yǔ)音信號(hào)是相互獨(dú)立的。</p><p> (2)觀測(cè)信號(hào)即混合語(yǔ)音的個(gè)數(shù)必須大于等于源信號(hào)的個(gè)數(shù),即 。此假設(shè)條件是為了保證混合矩陣是滿秩的且逆矩陣 存在。因?yàn)楫?dāng)M<N時(shí),為欠定混合(underdetermined mixture)情況,此時(shí)的盲語(yǔ)
60、音分離的問(wèn)題就變?yōu)椴缓媒鉀Q的問(wèn)題,這種情況下必須對(duì)源語(yǔ)音信號(hào)做出更多的假設(shè)才能分離出部分或全部源語(yǔ)音信號(hào),本文不討論這種情況。</p><p> (3)最多只能允許一個(gè)源語(yǔ)音信號(hào)是高斯分布的。這是因?yàn)閮蓚€(gè)統(tǒng)計(jì)獨(dú)立的高斯信號(hào)混合以后還是高斯信號(hào)[15],而高斯信號(hào)分布的統(tǒng)計(jì)特性用均值和方差就可以確定,不涉及到高階的統(tǒng)計(jì)參數(shù),那么它們的獨(dú)立性等于互不相關(guān)。由Darmois-Skitovich定理可知,任意變換 (為
61、分離矩陣,即 )分離后得到的結(jié)果都不會(huì)改變高斯向量的二階不相關(guān),也就是說(shuō),分離后的結(jié)果總是符合統(tǒng)計(jì)獨(dú)立性的要求的。顯然,這種結(jié)果與源語(yǔ)音信號(hào)不可能總是一致的。因此,若服從高斯分布的源語(yǔ)音信號(hào)超過(guò)一個(gè),則各源語(yǔ)音信號(hào)不可分。</p><p> ?。?)各傳感器引入的噪聲很小,可以忽略不計(jì)。這時(shí)盲信號(hào)語(yǔ)音分離的模型可用式 來(lái)描述。對(duì)于噪聲比較大的情況,可將噪聲本身也可以看做一個(gè)源信號(hào),對(duì)它與其他“真正的”源語(yǔ)音的混合
62、信號(hào)進(jìn)行盲分離處理,從而使算法具有更廣泛的適用范圍和更強(qiáng)的穩(wěn)健性。</p><p> ?。?)求解ICA問(wèn)題,需對(duì)各個(gè)源語(yǔ)音信號(hào)的pdf有一些先驗(yàn)知識(shí)[8]。例如,自然界的語(yǔ)音和某些音樂(lè)信號(hào)具有超高斯特性,如拉普拉斯分布,這種分布函數(shù)中心部分又窄又高,而尾部拖得很長(zhǎng),如圖2-2中曲線 所示;圖像信號(hào)大多具有亞高斯特性,如均勻分布,這種分布函數(shù)中心部分較寬,尾部很短,如圖中曲線③所示;許多噪聲則具有高斯特性,當(dāng) 為
63、多個(gè)隨機(jī)變量之和且變量數(shù)很多時(shí), 也趨近于高斯分布,如途中曲線①所示。</p><p> 圖2-2高斯、超高斯、亞高斯pdf</p><p> 2.4.2 對(duì)源語(yǔ)音信號(hào)的概率密度函數(shù)進(jìn)行估計(jì)</p><p><b> (1)相對(duì)熵[6]</b></p><p> 假設(shè)對(duì)同一個(gè)隨機(jī)矢量,有兩種可能的概率分布和。為了
64、衡量這兩個(gè)分布之間的差別,則我們需要定義相對(duì)熵(或稱作“Kullback-Leibler距離”)。連續(xù)的相對(duì)熵定義為:</p><p><b> ?。?-3)</b></p><p> 雖然和當(dāng)且僅當(dāng)時(shí)成立,但是相對(duì)熵并非一個(gè)真正的度量,因?yàn)樵诎鸦ハ嘟粨Q時(shí),我們會(huì)發(fā)現(xiàn)并不具有對(duì)稱性。</p><p><b> (2)負(fù)熵[9]&l
65、t;/b></p><p> 在概率論中,我們知道,在中心極限定理中:一定條件下,多個(gè)獨(dú)立分布的和趨于高斯分布。將這個(gè)理論應(yīng)用到ICA的問(wèn)題中可以得出這樣的結(jié)論:若觀測(cè)信號(hào)即混合語(yǔ)音信號(hào)是多個(gè)獨(dú)立源語(yǔ)音信號(hào)的線性組合,那么觀測(cè)信號(hào)即混合語(yǔ)音信號(hào)的高斯性比源語(yǔ)音信號(hào)的高斯性強(qiáng)。這就啟示我們可以將非高斯性作為ICA的一個(gè)判斷依據(jù)。</p><p> 在定義負(fù)熵之前先介紹一個(gè)定理,熵極
66、大定理:在所有的具有相同協(xié)方差矩陣的分布中,高斯分布的熵最大。</p><p> 這個(gè)定理說(shuō)明:在一定的條件下,我們可以找到一個(gè)分布具有最大的信息熵。而這個(gè)分布就為是高斯分布。所以我們會(huì)產(chǎn)生這樣一個(gè)想法,如果以高斯分布作為參考標(biāo)準(zhǔn),我們就可以用信息熵來(lái)衡量一個(gè)分布與高斯分布之間的偏離程度,即非高斯性。所以,負(fù)熵可定義為:</p><p><b> ?。?-4)</b>
67、;</p><p> 其中是一個(gè)與具有相同的協(xié)方差的高斯聯(lián)合概率密度。由上述定理我們可以得出負(fù)熵具有這樣的性質(zhì):若,當(dāng)且僅當(dāng)也是高斯分布時(shí)等號(hào)成立。</p><p> 負(fù)熵有一個(gè)重要的性質(zhì),就是對(duì)于可逆的線性變換保持不變。在ICA中,因?yàn)橛辛嗽撔再|(zhì),我們可以將邊緣負(fù)熵作為一個(gè)代價(jià)函數(shù),然后尋找線性變換使其最大化。因此可得出ICA算法中負(fù)熵判據(jù)的有效性。</p><p
68、> ?。?)互傳信息量[7]</p><p> 互信息(Mutual Information,簡(jiǎn)稱MI)是用來(lái)度量隨機(jī)變量之間獨(dú)立性的基本準(zhǔn)則。多個(gè)隨機(jī)變量之間的互信息定義為其聯(lián)合概率密度函數(shù)與各邊緣密度函數(shù)乘積之間的K-L散度,即:</p><p><b> ?。?-5)</b></p><p> 由K-L散度的非負(fù)性可知:<
69、/p><p><b> ?。?-6)</b></p><p> 由(2-4)式,我們?nèi)菀卓闯?,?dāng)中的各個(gè)語(yǔ)音分量相互獨(dú)立時(shí),互信息。再結(jié)合(2-6)式,我們得出了一個(gè)重要結(jié)論:當(dāng)且僅當(dāng)各個(gè)語(yǔ)音分量相互獨(dú)立時(shí)等號(hào)成立。互信息可以描述為由于各個(gè)語(yǔ)音分量之間的相互依賴關(guān)系帶來(lái)的信息的冗余。所以互信息也可以用來(lái)度量獨(dú)立性。</p><p> 2.4.3
70、 目標(biāo)函數(shù)的選取和優(yōu)化算法</p><p> ICA的處理過(guò)程實(shí)際上是為了使分離出的獨(dú)立分量[4]最大程度地逐步逼近各個(gè)源信號(hào) ,即ICA的目標(biāo)就是通過(guò)變換 ,由觀測(cè)信號(hào)向量求得源信號(hào)向量。為此,我們需要設(shè)立一個(gè)目標(biāo)函數(shù) ,如果 能使之達(dá)到極大(小)值,則 即為所需解,使得 與 相對(duì)應(yīng)。在這部分將給出相關(guān)的數(shù)學(xué)知識(shí)和從不同視角出發(fā)得到的目標(biāo)函數(shù)。</p><p> 從以上的介紹中可以知
71、道使整個(gè)系統(tǒng)的輸出信號(hào)相互獨(dú)立是ICA的主要目標(biāo)。因此,不同的ICA算法的不同主要體現(xiàn)為目標(biāo)函數(shù)的優(yōu)化算法和獨(dú)立準(zhǔn)則的衡量。故而ICA算法可以用下式表述:</p><p> ICA算法=目標(biāo)函數(shù)+優(yōu)化算法</p><p> 其中,不同的目標(biāo)函數(shù)就有不同的優(yōu)化算法。所以目標(biāo)函數(shù)的選取很重要。而優(yōu)化算法會(huì)影響ICA的收斂速度等,常見(jiàn)的優(yōu)化算法主要有牛頓迭代法、梯度下降法等。因此,ICA算法
72、的性能是目標(biāo)函數(shù)的選擇同優(yōu)化算法的選擇之間的結(jié)合。</p><p> 下面給出按照不同的目標(biāo)函數(shù)所相應(yīng)的分離準(zhǔn)則給出不同的ICA算法。</p><p> (1)非高斯性極大[1][13]</p><p> ICA方法必須的前提條件是非高斯性的存在,如果隨機(jī)變量都是高斯分布,那么ICA方法也就沒(méi)有研究的必要。其實(shí)基于非高斯性極大的ICA思想來(lái)自于中心極限定理。因
73、此,如果觀測(cè)信號(hào)是多個(gè)獨(dú)立源的線性組合,那么觀測(cè)信號(hào)比源信號(hào)更接近高斯分布,或者說(shuō)源信號(hào)的非高斯性比觀測(cè)信號(hào)的非高斯性要強(qiáng)。我們可以根據(jù)上述對(duì)分離結(jié)果的非高斯性進(jìn)行度量,當(dāng)其非高斯性達(dá)到最大時(shí),可以認(rèn)為實(shí)現(xiàn)最佳分離。</p><p> 對(duì)于零均值,單位方差的隨機(jī)變量,可表示為:</p><p><b> ?。?-7)</b></p><p>
74、 在現(xiàn)實(shí)世界中,亞高斯和超高斯信號(hào)都是普遍存在的。比如:自然景物圖象大多為亞高斯信號(hào),語(yǔ)音信號(hào)大都是超高斯信號(hào),生物醫(yī)學(xué)信號(hào)既有超高斯分布又有亞高斯分布。</p><p> ?。?) 互信息最小[1][13]</p><p> 我們知道隨機(jī)變量獨(dú)立性的準(zhǔn)則是用互信息度量的。互信息通常是非負(fù)的,但當(dāng)變量相互獨(dú)立時(shí),互信息就是0。所以可以用和之間的散度來(lái)度量各分量的統(tǒng)計(jì)獨(dú)立性。這一量也稱為
75、各分量間的互信息,并表示為,即有:</p><p><b> (2-8)</b></p><p> 可以看到,,的各分量統(tǒng)計(jì)獨(dú)立,這三種表述是等價(jià)的。所以互信息也可以用來(lái)度量獨(dú)立性。</p><p> ?。?) 非線性不相關(guān)[1][13]</p><p> 由上述統(tǒng)計(jì)知識(shí)可知,對(duì)于統(tǒng)計(jì)獨(dú)立的源信號(hào),具有可分的聯(lián)合概
76、率密度函數(shù),則若隨機(jī)變量是相互獨(dú)立的,則其任意階聯(lián)合矩也是可分的。假設(shè)有兩個(gè)相互獨(dú)立的源信號(hào),,則有:</p><p><b> (2-9)</b></p><p> 式中和是兩個(gè)非線性函數(shù)。由上式可知,若隨機(jī)變量是非線性不相關(guān)的,則表示它們相互獨(dú)立。因此在ICA的輸出端引入非線性環(huán)節(jié)來(lái)表示輸出結(jié)果的獨(dú)立程度,如圖2-3,分離結(jié)果的獨(dú)立性可由非線性輸出的協(xié)方差矩陣
77、來(lái)表示。顯然,若輸出向量的各分量是相互獨(dú)立的,則其協(xié)方差矩陣和輸出的都是對(duì)角矩陣,它的也是對(duì)角矩陣。</p><p> 圖2-3 帶有非線性環(huán)節(jié)的分離模型</p><p> 分離結(jié)果獨(dú)立性的可用非線性不相關(guān)度量。差別在于選擇的非線性函數(shù)的不同,但本質(zhì)上都是利用了隨機(jī)變量的高階統(tǒng)計(jì)特性來(lái)進(jìn)行盲信號(hào)語(yǔ)音分離,以實(shí)現(xiàn)最佳的分離結(jié)果。</p><p> 2.4.4 語(yǔ)
78、音分離的評(píng)價(jià)指標(biāo)</p><p><b> (1)串音誤差</b></p><p> 為了以后查看實(shí)驗(yàn)結(jié)果[21],本文在此處引入一個(gè)分離算法分離效果的檢驗(yàn)方法。定義了一個(gè)混合-分離矩陣C,使混合-分離矩陣是一個(gè)廣義排列矩陣即可。然而時(shí)間上盲分離算法只能使混合-分離矩陣盡量接近一個(gè)廣義排列矩陣。所以,可以利用混合-分離矩陣和廣義排列矩陣之間的差別作為分離效果的評(píng)價(jià)
79、指標(biāo)是一個(gè)好辦法。所以定義串音誤差ECT:</p><p><b> (2-10)</b></p><p> 其中, 為矩陣 的第 行第 列的元素。 的下界為0。如果 越小,則分離的效果越好。下圖2-4為ECT的流程圖。</p><p> 圖2-4 ECT的流程圖</p><p> ?。?)信噪比(Signal N
80、oise Ratio , SNR)</p><p> 最直觀的一種評(píng)價(jià)語(yǔ)音分離性能的方法就是計(jì)算分離后的語(yǔ)音信號(hào)的信噪比,即分離后的語(yǔ)音信號(hào)和源語(yǔ)音信號(hào)的差別。一般來(lái)說(shuō),分離后的信噪比越高說(shuō)明算法的分離性能越好,否則相反。其計(jì)算公式如下:</p><p><b> ?。?-11)</b></p><p> 式中 是源語(yǔ)音信號(hào), 是對(duì)源語(yǔ)音信
81、號(hào)的估計(jì)信號(hào)。</p><p> 2.4.5 ICA數(shù)據(jù)的預(yù)處理</p><p> 通常為了讓混合后的語(yǔ)音信號(hào),即觀測(cè)信號(hào)更好的符合ICA的基本假設(shè)條件,我們要對(duì)觀測(cè)信號(hào)即混合語(yǔ)音信號(hào)進(jìn)行適當(dāng)?shù)念A(yù)處理。預(yù)處理方法通常有中心化、白化和濾波器處理等等,中心化和白化也統(tǒng)稱標(biāo)準(zhǔn)化。</p><p> ?。?)中心化(centering)</p><
82、p> 中心化是對(duì)混合后的語(yǔ)音信號(hào)即觀測(cè)信號(hào)去均值。設(shè)觀測(cè)矢量為,而的均值為: ,中心化則為: 。中心化后的源語(yǔ)音信號(hào)也是零均值向量。</p><p> ?。?)白化處理(whitening)</p><p> 白化處理是ICA算法中一個(gè)經(jīng)常用到的預(yù)處理方法,對(duì)于某些ICA算法,白化還是一個(gè)必須的預(yù)處理過(guò)程。</p><p> 眾所周知,不相關(guān)是獨(dú)立的必要
83、條件,而不是充分條件。相互獨(dú)立的源信號(hào) 肯定是不相關(guān)的,若使獨(dú)立源的能量進(jìn)行歸一化處理, 相當(dāng)于源信號(hào) 的自協(xié)方差矩陣是單位矩陣:</p><p><b> ?。?-12)</b></p><p> 當(dāng)源語(yǔ)音信號(hào)均值為零時(shí),獨(dú)立源語(yǔ)音信號(hào)的自協(xié)方差矩陣等于自相關(guān)函數(shù)矩陣 。將滿足式(2-12)的源語(yǔ)音信號(hào)稱為空域白化信號(hào)(或簡(jiǎn)稱白化信號(hào))??梢钥闯觯谆盘?hào)既要求能
84、量歸一化又要求不相關(guān),即歸一化的不相關(guān)。</p><p> 對(duì)任意多維混合語(yǔ)音信號(hào)加一個(gè)線性變換,使其變?yōu)榘谆盘?hào)的處理過(guò)程叫做歸一化解相關(guān)或白化處理,則相應(yīng)的變換矩陣為白化矩陣。若為混合語(yǔ)音信號(hào)即觀測(cè)信號(hào) 的白化矩陣,則:</p><p><b> ?。?-13)</b></p><p> 是經(jīng)過(guò)白化后的混合語(yǔ)音信號(hào),于是有 。再將 代入
85、式(2-13)并令 ( 為全局混合矩陣),得:</p><p><b> ?。?-14)</b></p><p> 由于線性變換 所連接的 和 是兩個(gè)隨機(jī)向量,則矩陣 一定是正交矩陣,如果把 看作新的觀測(cè)信號(hào)即混合語(yǔ)音信號(hào),那么白化就是使原來(lái)的混合矩陣轉(zhuǎn)化成一個(gè)新的正交矩陣 ,類似地,若分離矩陣 針對(duì)的是白化后的混合語(yǔ)音信號(hào) ,分離輸出 滿足 時(shí),有:</p
86、><p><b> ?。?-15)</b></p><p> 式(2-15)表明,數(shù)據(jù)經(jīng)過(guò)白化后的盲信號(hào)語(yǔ)音分離,其分離矩陣 必然為正交矩陣。</p><p> 對(duì)于多維信號(hào)來(lái)說(shuō),白化后的混合矩陣 是 階正交矩陣,其自由度降為 ,因此白化使得ICA問(wèn)題的工作量幾乎減少了一半。白化處理這種常規(guī)方法作為ICA盲信號(hào)語(yǔ)音分離的預(yù)處理可以有效的降低問(wèn)題
87、的復(fù)雜程度,但值得注意的是,某些ICA算法不需要白化預(yù)處理,因?yàn)榘谆^(guò)程已經(jīng)包含在語(yǔ)音分離算法自身當(dāng)中,可以直接經(jīng)過(guò)迭代估計(jì)出分離矩陣 。</p><p> 進(jìn)行白化處理的另一種方法就是迭代,因?yàn)榘谆哪康氖菍ふ乙粋€(gè)白化矩陣使得變換以后的矢量相關(guān)矩陣是單位陣,因此令 ,通過(guò)下式的迭代,不斷調(diào)整矩陣 的各個(gè)元素值,逐步縮小 的相關(guān)矩陣和單位矩陣 之間的“距離”。迭代方法如下:</p><p&
88、gt;<b> ?。?-16)</b></p><p> 其中 是學(xué)習(xí)系數(shù),可以是適當(dāng)?shù)某?shù),也可以是隨時(shí)間變化的參數(shù)。</p><p> 可以看出,當(dāng)式(2-16)的迭代算法收斂以后,將有: ,即 ,則實(shí)現(xiàn)了對(duì)于混合信號(hào)的預(yù)白化。白化的流程如下圖2-5所示:</p><p> 圖2-5 白化處理的流程圖</p><p
89、> 2.5盲信號(hào)語(yǔ)音分離的主要流程</p><p> 從上幾節(jié)的內(nèi)容可知,盲信號(hào)語(yǔ)音分離的主要流程主要可分為一下幾部:</p><p> (1)輸入一個(gè)混合后的語(yǔ)音信號(hào)并對(duì)其進(jìn)行預(yù)處理;</p><p> (2)確定一個(gè)優(yōu)化算法準(zhǔn)則來(lái)衡量語(yǔ)音信號(hào)的獨(dú)立性;</p><p> ?。?)根據(jù)上面的準(zhǔn)則和混合后的語(yǔ)音信號(hào),對(duì)源語(yǔ)音信號(hào)
90、的概率密度函數(shù)進(jìn)行估計(jì);</p><p> ?。?)選擇一個(gè)目標(biāo)函數(shù);</p><p> ?。?)結(jié)合目標(biāo)函數(shù)和對(duì)源語(yǔ)音信號(hào)概率密度函數(shù)的估計(jì),對(duì)混合后的語(yǔ)音信號(hào)進(jìn)行分離;</p><p> ?。?)把分離后的語(yǔ)音信號(hào)和源語(yǔ)音信號(hào)進(jìn)行對(duì)比,看分離效果是否合理。</p><p> 具體流程如2-6圖所示:</p><p&g
91、t; 圖2-6 盲信號(hào)語(yǔ)音分離的流程圖</p><p><b> 2.6 本章小結(jié)</b></p><p> 在這一章中我們首先介紹了語(yǔ)音信號(hào)的特征,然后介紹了語(yǔ)音信號(hào)的分離模型即盲信號(hào)分離的模型。然后詳細(xì)講述了盲信號(hào)語(yǔ)音分離的研究?jī)?nèi)容和研究方法。包括最基礎(chǔ)的獨(dú)立分量分析方法,優(yōu)化算法的準(zhǔn)則,對(duì)源語(yǔ)音信號(hào)的概率密度函數(shù)的估計(jì),目標(biāo)函數(shù)的選取和優(yōu)化算法、分離性能指
92、標(biāo)和對(duì)混合語(yǔ)音信號(hào)的預(yù)處理。明確的說(shuō)明了要進(jìn)行語(yǔ)音信號(hào)分離的流程。</p><p> 3 盲信號(hào)語(yǔ)音分離的詳細(xì)設(shè)計(jì)</p><p> 3.1 傳統(tǒng)的EASI算法分析</p><p> ICA算法是在沒(méi)有任何約束條件下得到的,它只能保證 是收斂的,并不能保證 是正交的。但是我們希望最后得到的分離矩陣 是正交的,因此,在1996年,cardoso和Laheld提出
93、了著名的基于獨(dú)立分量分析思想的自適應(yīng)[20]盲分離算法EASI。如下圖3-1所示,為EASI算法模型。</p><p> 圖3-1 EASI算法模型</p><p> 3.1.1 EASI算法</p><p> 假設(shè)信號(hào)源 和觀測(cè)信號(hào) 的均值已經(jīng)進(jìn)行了中心化處理,且觀測(cè)信號(hào)也經(jīng)過(guò)了白化處理,因?yàn)?, ,所以只要考慮正交矩陣 就好,此時(shí) ,則:</p>
94、;<p><b> ?。?-1)</b></p><p> 因?yàn)榧僭O(shè)數(shù)據(jù)經(jīng)過(guò)了白化處理,那么分離矩陣 的自然梯度算法為:</p><p><b> ?。?-2)</b></p><p> 因?yàn)樵诿恳徊降校蛛x矩陣 近似正交,所以有 ,則上面的算法簡(jiǎn)化為下列形式:</p><p>
95、;<b> ?。?-3)</b></p><p> 實(shí)際上由于 是傾斜對(duì)稱的,白化處理可以與信號(hào)的分離同時(shí)進(jìn)行。如此,這樣的算法就成為EASI(Equivariant Adaptive Separation based ICA)算法。其公式為:</p><p><b> ?。?-4)</b></p><p> 在實(shí)際語(yǔ)
96、音信號(hào)盲分離中,還有批處理的方法,這時(shí)就不用瞬時(shí)值而是通過(guò)時(shí)間的平均值來(lái)實(shí)現(xiàn)分離。</p><p> 3.1.2 算法的流程</p><p> 通過(guò)前面的分析,我們得到了EASI算法,而下面我們從另一個(gè)角度來(lái)分析EASI算法。</p><p> 假設(shè)所有源信號(hào)都是零均值,方差為1的隨機(jī)變量,即源信號(hào)的自相關(guān)矩陣是單位矩陣:</p><p&g
97、t; 設(shè)Q為白化矩陣,則有:</p><p><b> ?。?-5)</b></p><p> 其中, 。當(dāng)觀測(cè)信號(hào)被白化以后,有 ,所以對(duì)下面的代價(jià)函數(shù)進(jìn)行優(yōu)化就可以實(shí)現(xiàn)混合信號(hào)的白化:</p><p><b> ?。?-6)</b></p><p> 顯然,當(dāng)且僅當(dāng) 時(shí)有 。再由前面信息論
98、知識(shí)以及輸出信號(hào)互信息最小化可知,因?yàn)?為正交矩陣,所以可知: </p><p><b> ?。?-7)</b></p><p><b> 一般初始化 ,有:</b></p><p><b> (3-8)</b></p><p
99、> 同時(shí)要保證觀測(cè)信號(hào) 是白化的,則要加一個(gè)約束條件,根據(jù)之前介紹的白化方法,有下式:</p><p><b> ?。?-9)</b></p><p> 上式兩端同乘 ,則也可得式(3-4)。</p><p> EASI算法可以簡(jiǎn)化成下圖3-2的流程:</p><p> 圖3-2 EASI算法流程圖<
100、;/p><p> 圖3-2 EASI算法的流程圖</p><p> 3.1.3 串音誤差ECT</p><p> 下圖3-3為傳統(tǒng)EASI算法的ECT圖。</p><p> 圖3-3 傳統(tǒng)EASI算法的ECT</p><p> 從串音誤差ECT收斂曲線可以看出,在使用2000個(gè)左右樣本就已經(jīng)處于穩(wěn)定狀態(tài)了,之和
101、一直在1.7左右震蕩,而不能繼續(xù)向0靠近。這說(shuō)明:步長(zhǎng)太大,可能會(huì)不利于收斂。</p><p> 3.1.4 算法中的步長(zhǎng)因子u</p><p> EASI算法的穩(wěn)定性條件是在假設(shè)步長(zhǎng)因子很小且算法在平衡點(diǎn)處的性能,然而在自適應(yīng)算法中,步長(zhǎng)因子是非常重要的參數(shù),它影響算法的收斂速度和最終的穩(wěn)態(tài)性能,因此有必要分析步長(zhǎng)因子對(duì)整個(gè)算法的影響。得出結(jié)論,由于EASI算法采用的是固定步長(zhǎng),所以
102、隨著步長(zhǎng)的增大,穩(wěn)態(tài)誤差就會(huì)越大,這樣分離處理的信號(hào)與源信號(hào)的符合程度就會(huì)變差。</p><p> 3.2 改進(jìn)的自適應(yīng)盲分離算法</p><p> 在EASI算法中步長(zhǎng)參數(shù)的作用就是在每一步迭代過(guò)程中,控制分離矩陣 各元素更新的幅度。步長(zhǎng)參數(shù)的合理選擇對(duì)算法的性能至關(guān)重要,一般采用固定步長(zhǎng)的盲分離算法會(huì)限制收斂速度或者導(dǎo)致分離算法會(huì)有較差的穩(wěn)定性。任何自適應(yīng)系統(tǒng)調(diào)整參數(shù)的目的都是為了
103、達(dá)到如下兩個(gè)性能的最佳結(jié)合:(1)收斂速度;(2)穩(wěn)態(tài)誤差。因此,我們對(duì)步長(zhǎng)的任何改進(jìn)目的都是為了增加步長(zhǎng)到一個(gè)大的穩(wěn)定值以便達(dá)到最快的收斂,當(dāng)進(jìn)入最佳收斂點(diǎn)是,我們就需要相應(yīng)的減少步長(zhǎng)從而提高穩(wěn)定性能。分離矩陣 收斂于一定的穩(wěn)定領(lǐng)域,而不是收斂于一個(gè)固定的值。</p><p> 3.2.1 改進(jìn)算法的分析</p><p> 基于上面的論述,我們考慮利用分離矩陣 離最佳分離矩陣 的距離
104、來(lái)進(jìn)行步長(zhǎng)自適應(yīng)的調(diào)整。由于 事先我們并不知道,所以只能用一種類似的方法來(lái)控制。如下式所示 , 其中 為Frobenius范數(shù)。實(shí)際上由于收斂狀態(tài)會(huì)不時(shí)地抖動(dòng),會(huì)使得 出現(xiàn)比較大的波動(dòng),所以無(wú)法用 來(lái)直接控制步長(zhǎng)因子來(lái)保證分離矩陣穩(wěn)定的收斂于 。所以,我們采用了平滑的 ,即為 來(lái)代替 進(jìn)行步長(zhǎng)因子的自適應(yīng)調(diào)整。</p><p> 在選取合適的步長(zhǎng)時(shí),需要注意一個(gè)原則,在自適應(yīng)的過(guò)程中,如果 增大,則說(shuō)明步長(zhǎng)太
105、大,會(huì)出現(xiàn)抖動(dòng)現(xiàn)象,需要減小步長(zhǎng);相應(yīng)地,如果 減小的程度超出了基本范圍,則說(shuō)明還沒(méi)有達(dá)到最佳的分離矩陣 ,為了加快收斂速度,我們需要加大步長(zhǎng)。</p><p> 在以上理論分析的基礎(chǔ)上,我們選擇了下式為步長(zhǎng)因子: (3-11)</p><p> 從上
106、式(3-11)中我們可以很容易地的看出來(lái),當(dāng) 增加時(shí), ,從而步長(zhǎng)因子 平滑的減小,相應(yīng)地,當(dāng) 減少時(shí), ,從而步長(zhǎng)因子 相應(yīng)的增加。</p><p> 由于 無(wú)法事先得知,我們可以采用下式方法來(lái)求得:</p><p><b> ?。?-12)</b></p><p> 綜上所述,根據(jù)自適應(yīng)步長(zhǎng)的調(diào)整方案,改進(jìn)的自適應(yīng)盲分離算法如下:<
107、;/p><p><b> (3-13)</b></p><p> 3.2.2 改進(jìn)的自適應(yīng)盲分離算法的流程</p><p> 下圖3-4所示為改進(jìn)的自適應(yīng)分離算法的流程圖:</p><p> 圖3-4 改進(jìn)的自適應(yīng)分離算法流程圖</p><p> 3.2.3 改進(jìn)算法的串音誤差ECT<
108、/p><p> 改進(jìn)的自適應(yīng)盲分離算法的ECT為圖3-5:</p><p> 圖3-5 改進(jìn)的自適應(yīng)盲分離算法的ECT</p><p> 改進(jìn)的自適應(yīng)盲分離算法的ECT曲線表現(xiàn)和設(shè)計(jì)預(yù)想完全一致。既能在初期快速下降,又能在最后避免震蕩,得到一個(gè)很好很穩(wěn)定的值。</p><p><b> 3.3 本章小結(jié)</b><
109、;/p><p> 本章主要了研究自適應(yīng)盲分離算法,首先詳細(xì)地介紹了傳統(tǒng)的EASI算法,并分析了EASI算法的串音誤差ECT,揭示了步長(zhǎng)因子會(huì)影響該算法的局部穩(wěn)定性。因?yàn)閭鹘y(tǒng)的EASI算法的步長(zhǎng)因子是固定的,所以穩(wěn)定性能和收斂速度不能很好的統(tǒng)一。為此,我們提出了一種改進(jìn)的步長(zhǎng)自適應(yīng)盲分離算法,它的步長(zhǎng)是根據(jù)分離的程度自適應(yīng)變化的,故可以將收斂速度和穩(wěn)定性能進(jìn)行比較好的結(jié)合起來(lái)。</p><p>
110、; 4 盲信號(hào)語(yǔ)音分離算法的仿真實(shí)驗(yàn)</p><p> 由第二章可知,因?yàn)檎Z(yǔ)音信號(hào)的統(tǒng)計(jì)特征與盲信號(hào)分離中源信號(hào)的統(tǒng)計(jì)特征類似,即可以認(rèn)為語(yǔ)音信號(hào)分離為盲源分離的一個(gè)特例。故可以把語(yǔ)音信號(hào)的分離問(wèn)題轉(zhuǎn)化到盲信號(hào)的分離問(wèn)題中來(lái)解決。本文兩種盲信號(hào)語(yǔ)音分離的算法進(jìn)行了仿真實(shí)驗(yàn),并對(duì)分離性能作出比較,發(fā)現(xiàn)改進(jìn)的自適應(yīng)盲分離算法的分離效果優(yōu)于EASI算法。</p><p> 4.1 語(yǔ)音分離
111、算法的實(shí)現(xiàn)</p><p> 4.1.1 實(shí)現(xiàn)平臺(tái)</p><p> 本實(shí)驗(yàn)采用MATLAB7.0來(lái)實(shí)現(xiàn),MATLAB是矩陣實(shí)驗(yàn)室(Matrix Laboratory)的簡(jiǎn)稱,是美國(guó)Math Works公司出品的商業(yè)數(shù)學(xué)軟件,將數(shù)值分析、矩陣運(yùn)算、編程技術(shù)、圖形處理結(jié)合在一起,是一個(gè)強(qiáng)有力的工程和科學(xué)問(wèn)題的分析計(jì)算和程序設(shè)計(jì)的編程工具,它還具有專業(yè)水平的文字處理、符號(hào)計(jì)算、可視化建模仿
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 語(yǔ)音分離技術(shù)的研究與實(shí)現(xiàn).pdf
- 盲信號(hào)分離畢業(yè)論文
- 語(yǔ)音分離算法的研究與實(shí)現(xiàn).pdf
- 語(yǔ)音信號(hào)盲分離技術(shù)的研究與應(yīng)用.pdf
- 卷積混疊語(yǔ)音信號(hào)盲分離方法與實(shí)現(xiàn)技術(shù).pdf
- 混合語(yǔ)音盲分離的研究與實(shí)現(xiàn).pdf
- 語(yǔ)音混合信號(hào)的盲分離研究.pdf
- 盲源分離算法及其在語(yǔ)音分離中的應(yīng)用研究.pdf
- 聲回波對(duì)消與語(yǔ)音盲信號(hào)分離及其DSP實(shí)現(xiàn).pdf
- 語(yǔ)音信號(hào)盲分離與增強(qiáng)算法的研究.pdf
- 語(yǔ)音信號(hào)的盲分離算法研究.pdf
- 語(yǔ)音信號(hào)的盲分離技術(shù)研究及應(yīng)用.pdf
- 語(yǔ)音分離與增強(qiáng)算法的研究.pdf
- 多路語(yǔ)音信號(hào)的盲分離.pdf
- 卷積語(yǔ)音信號(hào)頻域盲分離關(guān)鍵技術(shù)的研究.pdf
- 語(yǔ)音信號(hào)的盲源分離方法研究.pdf
- 混合語(yǔ)音信號(hào)盲分離的實(shí)驗(yàn)研究.pdf
- 基于時(shí)域的語(yǔ)音信號(hào)盲分離算法研究及其DSP實(shí)現(xiàn).pdf
- 盲信號(hào)分離系統(tǒng)的研究與實(shí)現(xiàn).pdf
- 畢業(yè)論文設(shè)計(jì)盲信號(hào)處理
評(píng)論
0/150
提交評(píng)論