數(shù)字語音處理及matlab仿真_第1頁
已閱讀1頁,還剩33頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、數(shù)字語音處理及MATLAB仿真,太原理工大學信息工程學院 張雪英編著College of Information Engineering, Taiyuan University of Technology,,,2,課程總括,,課程性質(zhì),1,,課程目的和任務,2,,課程重點,3,,課程難點,4,課程性質(zhì),語音信號處理是通信、電子信息專業(yè)的選修課程,主要用于現(xiàn)代通信和電子信息領域,其主要前修專業(yè)基礎課程為信號與系統(tǒng)和數(shù)字信號處理。,課程

2、目的和任務,通過本課程的學習理解語音發(fā)聲和聽覺機理及其數(shù)字模型;掌握語音信號處理的基本概念、原理和方法,為以后的學習提供理論依據(jù);掌握語音信號的短時時域分析和頻域分析方法,并且能夠用Matlab語言編程實現(xiàn)對實際語音信號進行的處理;熟悉語音信號處理的應用領域,并了解該領域的新理論、新技術和發(fā)展趨勢,為今后的進一步學習和工作打下堅實的基礎。,課程重點,語音信號的產(chǎn)生和語音信號數(shù)字模型。短時能量、平均過零率、自相關的意義,以及這些特征參量在

3、語音信號中的應用,并且會用MATLAB實現(xiàn)。短時頻域分析的兩種解釋以及實現(xiàn)、LPC的基本原理以及與語音模型的關系、自適應量化的PCM,自適應預測編碼原理以及前饋和反饋的主要區(qū)別,另外增量調(diào)制中所造成的失真以及失真補償。矢量量化原理、LBG算法以及實驗。,課程難點,語音信號的產(chǎn)生和激勵、端點檢測和基音周期的估計、用數(shù)學公式來證明短時頻譜是如何反映整個語音信號的頻譜的、LPC方程組解法、自適應預測編碼原理、LBG算法以及實驗中的分幀和基音周

4、期檢測。,第1章 緒論,,1.1 概述,1,,1.2 語音信號處理的發(fā)展,2,,1.3 語音信號處理的應用及新方向,3,,1.4 語音信號處理過程的總體結(jié)構,4,,1.5 MATLAB在數(shù)字語音信號處 理中的應用,5,語音信號處理是一門新興的邊緣學科,是語音學與數(shù)字信號處理兩個學科相結(jié)合的產(chǎn)物。它和認知科學、心理學、語言學、計算機科學、模式識別和人工智能等學科有著緊密的聯(lián)系。 語音信號處理的目的: 得到某些語音

5、特征參數(shù)以便高效地傳輸或存儲; 通過某種處理運算以達到某種用途的要求。,1.1 概述,語音信息的交換大致上可以分為三大類: (1)人與人之間的語言通信: 包括語音壓縮與編碼、語音增強等。 (2)第一類人機語言通信問題: 語音合成,機器講話、人聽話的研究。 (3)第二類人機語言通信問題:語音識別和理解

6、 語音識別和理解:人講話、機器聽話的情況。,突破進展,系統(tǒng)論述語言產(chǎn)生的聲學理論,語譜圖儀問世,語譜圖語音,語音合成,1.2 語音信號處理的發(fā)展,,計算機,1,貝爾電話的發(fā)明,,3,用聲學方法對元音和歌唱進行了研究,,,,,,,,2,第一個聲碼器,1876年,1939年,19世紀60年代,4,20世紀40年代,1948年,6,7,,基礎研究方面,技術應用領域,,,5,1.2 語音信號處理的發(fā)展,,,,1,語音合成,,,,3

7、,語音編碼,,,,,,,,,2,語音識別,語音編碼,1.2.1 語音合成,以語言信息壓縮、存儲為主要目的對語音信號數(shù)字模型進行研究,同時研究音素、音節(jié)、詞組與句子的發(fā)音規(guī)則。最終恢復出自然流暢的語音來。例如文語轉(zhuǎn)換系統(tǒng)(Text-to-speech)。語音分析與合成將賦予計算機說話的功能。也是進行話音編碼、語音識別研究的基礎。,1.2.2 語音編碼,語音編碼的目的: 在保證一定語音質(zhì)量的前提下,盡

8、可能降低編碼比特率,以節(jié)省頻率資源。,1.2.2 語音編碼,語音編碼與文本到語音轉(zhuǎn)換兩個主要區(qū)別 一、前者是人與人之間的話音交流,要保留說話人的聲音特征。后者是文本到聲音的轉(zhuǎn)換即計算機發(fā)聲。它可以是標準播音員或其它聲音。 二、前者不僅對壓縮率和音質(zhì)有要求,而且要求較低的編、解碼延遲。而后者對處理幀長沒有什么太嚴格的限制。,1.2.3 語音識別,研究如何使計算機能夠聽懂人類的語言。以漢語語音為例:漢

9、語約有400個音節(jié),加上聲調(diào)約1200個音調(diào)節(jié),把這些語音信號的特征存儲到計算機內(nèi),并與計算機接收到的漢語發(fā)音進行比較,找到特征相同的音節(jié)或音調(diào)節(jié),這個過程就是語音識別。將識別出的音節(jié)序列轉(zhuǎn)換成文字,就是語言理解。許多算法將理解過程溶入到識別中來提高識別的準確性。因此可以將語音識別與理解歸入同一類應用。,語音識別研究領域包括: (1)根據(jù)對說話人說話方式的要求,可以分為孤立字語音識別系統(tǒng),連接字語音識別系統(tǒng)以及連續(xù)語音識別系統(tǒng)

10、。 (2)根據(jù)對說話人的依賴程度可以分為特定人和非特定人語音識別系統(tǒng)。 (3)根據(jù)詞匯量大小,可以分為小詞匯量、中等詞匯量、大詞匯量以及無限詞匯量語音識別系統(tǒng)。,1.3 語音信號處理的應用及新方向,語音技術的應用領域 包括語音識別、說話人的鑒別和確認、語種的鑒別和確認、關鍵詞檢測和確認、語音合成、語音編碼等。 但其中最具有挑戰(zhàn)性和最富有應用前景的為語音識別技術。,一:語音信號處理的應用,1. 說話

11、人識別技術的應用 安全加密、銀行信息電話查詢服務 公安機關破案和法庭取證方面 在聲控應用中,識別輸入的語音內(nèi)容,并根據(jù)內(nèi)容來執(zhí)行相應的動作,這包括了聲控電話轉(zhuǎn)換、聲控語音撥號系統(tǒng)、聲控智能玩具、信息網(wǎng)絡查詢、家庭服務、賓館服務、旅行社服務系統(tǒng)、醫(yī)療服務、股票查詢服務和工業(yè)控制等。,1. 說話人識別技術的應用 在電話與通信系統(tǒng)中,智能語音接口正在把電話機從一個單純的服務工具變成為一個

12、服務的“提供者”和生活“伙伴”。 目前,自動口語分析、用戶交換機、電話機、手機已經(jīng)包含了語音識別撥號功能,還有語音記事本、語音智能玩具等產(chǎn)品也包含了語音識別與語音合成功能。人們可以通過電話網(wǎng)絡用語音識別口語對話系統(tǒng)查詢有關的機票、旅游、銀行信息。,2. 語音合成的應用 公交汽車上的自動報站、各種場合的自動報時、自動報警、手機查詢服務和各種文本校對中的語音提示、在電信聲訊服務:如股票、售

13、后服務、車站查詢等信息;也可用于基于微型機的辦公、教學、娛樂等智能多媒體軟件,例如語言學習、教學軟件、語音玩具、語音書籍等;也可與語音合成技術與機器翻譯技術結(jié)合,實現(xiàn)語音翻譯等。,3. 語音編碼的應用 在移動通信、衛(wèi)星通信、軍事保密通信、信息高速公路和IP電話通信中的應用。 在個人移動通信、語音存儲、多媒體通信、數(shù)字數(shù)據(jù)網(wǎng)(DDN)中的應用。 未來的ISDN、衛(wèi)星

14、通信、移動通信、微波接力通信和信息高速公路以及保密電話等中的應用。,二、語音信號處理的新方向 (1)基于語音的信息檢索。網(wǎng)絡技術及數(shù)字圖書館 技術的發(fā)展,基于語音識別的信息檢索技術正成為研究熱點。 (2)基于語音識別的廣播新聞的自動文摘技術的研究。由于廣播、電視中的發(fā)音較為標準規(guī)范,在識別中避免了說話人發(fā)音上的不規(guī)范,有利于語音識別系統(tǒng)性能的提高。,二、語音信號處理的新方向 (3)VoIP技術。是通過TCP/IP網(wǎng)絡,而不是

15、傳統(tǒng)的電話網(wǎng)絡來傳輸語音的新的通信方式,通常稱之為IP電話技術。在網(wǎng)絡上對壓縮的語音數(shù)據(jù)以數(shù)據(jù)包的形式進行傳輸和識別。 (4)語音訓練與校正技術。現(xiàn)在越來越多的人希望掌握其他非母語語言,以便方便的進行交流。因此語言學習機已成為當今外語學習者的有利工具。,二、語音信號處理的新方向 (5)語種識別。是近年來新出現(xiàn)的研究方向,通過分析處理一個語音片斷來判別其所屬語音的種類,本質(zhì)上屬于語音識別的研究范疇。 (6)基于語音的情感處

16、理研究。在人與人的交流中,除了語音信息外,非語言信息也起著重要的作用。為了使人機交流更自然、更人性化,基于語音的情感處理研究也是非常必要的。,1.4 語音信號處理過程的總體結(jié)構,圖1.1 信號處理和加工的一般示意圖,信號提取與利用,信號變換,信號表示,觀察與測量,信號源,,,,,信息加工和處理的一般流程如圖1.1所示,,語音輸入,預處理,數(shù)字化,特征提取,,,,合成,傳輸,,參考模式庫,模式匹配,識別結(jié)果,,壓縮處理,,,,,,,,

17、識別,訓練,語音識別,解壓縮,存儲,語音輸出,,,,,,,,,,圖1.2 語音處理過程的結(jié)構框圖,,,,,,語音處理過程的結(jié)構框圖,1.5 MATLAB在數(shù)字語音信號處理中的應用,數(shù)字語音信號處理是將數(shù)字信號處理與語音學相結(jié)合,解決現(xiàn)代通信領域中人與人、人與機器之間的信息交流的學科。 MATLAB是一種功能強大、效率高、交互性好的計算機高級語言。 近年來MATLAB已成為學習語音信號

18、處理和進行研究工作的仿真軟件工具。,MATLAB在數(shù)字語音信號中的幾方面應用: (1)通過MATLAB可以對數(shù)字化的語音信號進行時頻域分析。 (2)通過MATLAB可以對數(shù)字化的語音信號進行估計和判別。 (3)通過利用MATLAB編程對語音信號進行處理 本書中的程序?qū)嵗肕ATLAB語言編寫,供大家上機實踐時參考。,數(shù)字語音信號處理研究內(nèi)容,涉及三

19、方面相互密切配合的任務和課題:1. 應用2. 基礎理論和算法3. 硬件系統(tǒng),1. 應用方面,通信產(chǎn)業(yè)起源于1874年電話的發(fā)明。從那時起,通信產(chǎn)業(yè)大致發(fā)生了三次重大變革。 (1)第一次變革產(chǎn)生于七十年代初。1972年CCITT組織公布了第一個語音編碼標準G.711。即對數(shù)PCM編碼,由此開始,數(shù)字程控交換網(wǎng)絡逐步淘汰了傳統(tǒng)的模擬交換傳輸方式。,(2)第二次重大變革產(chǎn)生于八十年代末。1988年歐共體13個國家數(shù)字移動特別

20、工作組(GSM)制定了采用長時預測規(guī)則碼激勵的編碼標準(13k bps RPE-LTP)。 1989年美國蜂窩通信工業(yè)協(xié)會(CITA)宣布了北美數(shù)字移動通信話音編碼標準(8K bps矢量和激勵VSELP)。從而確立了全球范圍第二個傳輸網(wǎng)移動通信產(chǎn)業(yè)的崛起。,(3)第三次變革發(fā)生在世紀之交。以新興的計算機因特網(wǎng)為基礎的信息高速公路在全世界范圍迅速發(fā)展。如何在INTERNET網(wǎng)上有效地傳輸話音成為產(chǎn)業(yè)界關注的焦點。IP電話將使因

21、特網(wǎng)成為第三個話音通信傳輸網(wǎng)。目前IP電話所用的話音編碼標準有G.723.1、G.728、G.729等。這些標準各有長短。人們正在努力研究適合IP電話的新的編碼算法。低延遲、低碼率、低復雜性、高音質(zhì)的話音編碼算法將是未來IP電話網(wǎng)絡的奠基石。,2. 基礎理論和算法方面,從以下方面進行: (1)語音產(chǎn)生的機理(發(fā)音)和感知機理(聽) 涉及心理學、語音學、語言學、認知學、神經(jīng)生理學等。

22、 (2)將語音作為一種信號來處理 常用方法: 數(shù)字濾波器(FIR、IIR);快速付里葉變換(FFT); 線性預測編碼(LPC);同態(tài)信號處理等。 新的方法:神經(jīng)網(wǎng)絡、矢量量化、子波變換等,3. 硬件方面,硬件系統(tǒng)主要體現(xiàn)在內(nèi)存容量和計算速度上。語音信號處理器的運算速度一般為10~20MIPS(Million Instructions Per Second),有的可達50MIPS或100

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論