語(yǔ)音情感特征提取及識(shí)別方法研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩151頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、近年來(lái)隨著人工智能的發(fā)展,情感智能與計(jì)算機(jī)技術(shù)結(jié)合產(chǎn)生了情感計(jì)算這一嶄新的研究課題。情感在人類的感知、決策等過(guò)程中扮演著重要角色。語(yǔ)音作為人類最重要的交流媒介,攜帶著豐富的情感信息。如何使用計(jì)算機(jī)技術(shù)從語(yǔ)音中自動(dòng)識(shí)別說(shuō)話者的情感狀態(tài)近年來(lái)受到各領(lǐng)域研究者的廣泛關(guān)注。語(yǔ)音情感識(shí)別的研究成果對(duì)于增強(qiáng)計(jì)算機(jī)的智能化和人性化、開(kāi)發(fā)新型人機(jī)環(huán)境、以及推動(dòng)多媒體技術(shù)和信號(hào)處理等相關(guān)領(lǐng)域的發(fā)展有著重要的意義。現(xiàn)有的基于語(yǔ)音聲學(xué)特征的情感識(shí)別研究,尤其

2、是針對(duì)普通話語(yǔ)音的研究,還存在較多局限性,如不能像語(yǔ)音識(shí)別一樣找到一種通用的語(yǔ)音情感特征,且識(shí)別效果受說(shuō)話者、環(huán)境、語(yǔ)言、文化、性別等的影響較大,識(shí)別效果不佳,魯棒性、抗干擾能力較差等。
   本文圍繞語(yǔ)音情感識(shí)別中情感語(yǔ)料庫(kù)的建立、語(yǔ)音情感特征提取與選擇、語(yǔ)音情感識(shí)別方法四個(gè)方面的關(guān)鍵技術(shù),以新型人機(jī)交互為應(yīng)用背景,深入分析這些關(guān)鍵技術(shù)的研究現(xiàn)狀以及存在的問(wèn)題,針對(duì)高興、悲傷、驚訝、憤怒、害怕、厭惡、中性7種日常生活中常見(jiàn)的經(jīng)

3、典情感,建立應(yīng)用能力良好的普通話語(yǔ)音情感數(shù)據(jù)庫(kù),提出以兩級(jí)語(yǔ)音情感特征選擇、非個(gè)性化語(yǔ)音情感特征提取、多重分形語(yǔ)音情感特征提取、分層語(yǔ)音情感識(shí)別方法以及語(yǔ)音情感識(shí)別決策融合方法為核心的語(yǔ)音情感識(shí)別技術(shù)。本文的主要工作概括如下:
   (1)建立主要以普通話為腳本的語(yǔ)音情感數(shù)據(jù)庫(kù)(Speech Emotion Database-SED)和音視頻情感數(shù)據(jù)庫(kù)(Audio-Visual Emotion Database-AVED)。這兩

4、個(gè)情感數(shù)據(jù)庫(kù)均包含了高興、悲傷、驚訝、憤怒、害怕、厭惡、中性7種情感,分別由10個(gè)和9個(gè)不同的非專業(yè)表演者在專門(mén)的錄音室錄制完成。其中,將音視頻情感數(shù)據(jù)庫(kù)AVED進(jìn)行音視頻分離后的音頻部分作為情感語(yǔ)料。
   (2)提出了基于多重分形的和基于導(dǎo)數(shù)的非個(gè)性化語(yǔ)音情感特征提取方法,給出了個(gè)性化和非個(gè)性化語(yǔ)音情感特征的概念,并將所提取的語(yǔ)音情感特征劃分為個(gè)性化和非個(gè)性化語(yǔ)音情感特征兩類,分別分析了這些特征對(duì)語(yǔ)音情感識(shí)別的貢獻(xiàn)以及受說(shuō)話

5、者變化的影響。所提出的多重分形語(yǔ)音情感特征在悲傷、中性情感上的識(shí)別效果優(yōu)于聲學(xué)語(yǔ)音情感特征,可作為聲學(xué)語(yǔ)音情感特征的補(bǔ)充;基于導(dǎo)數(shù)的非個(gè)性化語(yǔ)音情感特征在包含一定情感信息的前提下受說(shuō)話者個(gè)性化因素的干擾較小。對(duì)語(yǔ)音情感特征性質(zhì)的研究結(jié)果將有助于進(jìn)一步研究如何提高語(yǔ)音情感識(shí)別的魯棒性,為特定背景下的語(yǔ)音情感識(shí)別提供有益的參考;
   (3)提出基于類集/類對(duì)的兩級(jí)語(yǔ)音情感識(shí)別和分類器參數(shù)優(yōu)化方法。該方法將原始特征首先采用神經(jīng)網(wǎng)絡(luò)貢

6、獻(xiàn)分析法進(jìn)行預(yù)選擇,然后針對(duì)將要?jiǎng)澐值念惣蛘哳悓?duì),將預(yù)選擇后的特征進(jìn)行合并,合并后的特征再使用遺傳算法進(jìn)行特征和分類器參數(shù)的優(yōu)化選擇。該方法克服了神經(jīng)網(wǎng)絡(luò)選擇不夠準(zhǔn)確、難收斂,遺傳算法選擇出的特征子集規(guī)模較大的缺點(diǎn),能夠保證針對(duì)特定的類集/類對(duì)選擇比較準(zhǔn)確的特征子集,選擇出的特征子集規(guī)模不大,且可同時(shí)對(duì)分類器的參數(shù)進(jìn)行優(yōu)化。
   (4)提出基于改進(jìn)有向無(wú)環(huán)圖的分層語(yǔ)音情感識(shí)別方法。在該方法中,根據(jù)情感對(duì)之間混淆度的大小構(gòu)造有

7、向無(wú)環(huán)圖中語(yǔ)音情感的分層識(shí)別過(guò)程,并針對(duì)容易錯(cuò)分的樣本,提出了基于測(cè)地距離的鑒別度量算法,給易錯(cuò)分樣本提供多次被正確識(shí)別的機(jī)會(huì),可有效提高易錯(cuò)分樣本的識(shí)別率。情感識(shí)別實(shí)驗(yàn)結(jié)果表明:改進(jìn)有向無(wú)環(huán)圖方法在識(shí)別時(shí)間增加不大的前提下,能夠有效地提高語(yǔ)音情感的整體識(shí)別率。
   (5)提出基于承諾和一致性系數(shù)的自適應(yīng)模糊積分語(yǔ)音情感融合識(shí)別方法。該方法將分類器在訓(xùn)練集上分類的先驗(yàn)知識(shí)與對(duì)待識(shí)別樣本的分辨能力和分類一致性相結(jié)合,獲得真實(shí)反映

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論