服務(wù)機器人語音唇讀人機交互技術(shù)研究.pdf_第1頁
已閱讀1頁,還剩127頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、本論文圍繞助老助殘服務(wù)機器人課題,以智能輪椅為平臺,以語音唇讀人機交互方式作為研究對象,重點對唇讀識別問題作了深入研究。對目前唇讀技術(shù)存在的問題作了分析,對各個關(guān)鍵環(huán)節(jié)提出了相應(yīng)的解決思路,包括人臉檢測和ROI(Region Of Interesting)定位方法、唇讀特征提取算法、唇讀識別模型以及語音唇讀的融合算法,涵蓋了語音唇讀系統(tǒng)的全部過程。通過大量的實驗和研究,我們?nèi)〉昧艘恍┯幸饬x的成果,所有研究成果都在特定人雙模態(tài)數(shù)據(jù)庫上得到

2、了驗證。最后,我們設(shè)計了一個實時在線語音唇讀人機交互系統(tǒng),該系統(tǒng)包括軟件和硬件兩部分,采用上下位機通訊的方式實現(xiàn)了對智能輪椅進行語音唇讀控制。本論文的主要研究成果如下:
   針對唇讀人機交互中的人臉檢測和ROI定位問題,首次提出了一種新穎的自適應(yīng)ROI定位算法。該算法通過選擇HSV顏色模型排除了照度分量,利用自適應(yīng)算法克服了不同個體在膚色和唇色上的差異性,而且同時完成了人臉和ROI定位。為增強算法的魯棒性,又在包含各色人種的F

3、reret數(shù)據(jù)庫上進行了算法驗證。實驗表明該算法總體性能指標(biāo)優(yōu)于其它ROI定位算法。
   通過對現(xiàn)有各種唇讀特征提取方法進行比較,首次提出了一種基于LDAO(Linear Discriminant Analysis based on Object)的唇讀特征提取算法。在語音與唇讀識別應(yīng)用中傳統(tǒng)的LDA(Linear Discriminant Analysis)算法一般以音節(jié)、HMM狀態(tài)等基元為類別,獲得的最具判別力的特征投影主

4、軸和識別率不直接相關(guān),影響了識別率。LDAO算法以待識別對象為類別進行線性判別分析,在理論上保證了唇讀特征矢量向最具判別能力的主軸投影,基于唇讀數(shù)據(jù)庫的實驗證明,該算法明顯優(yōu)于現(xiàn)有各種唇讀特征提取算法。
   針對HMM、ANN模型在模式分類中固有的缺陷,采用了基于支持向量機(Support Vector Machine,SVM)的唇讀識別方法。SVM基于最小結(jié)構(gòu)風(fēng)險的分類原理,一方面解決了小樣本下的模式分類問題,另一方面克服了

5、傳統(tǒng)HMM分類器諸多不合理的前提假設(shè),從理論上來說,在有限的樣本下SVM應(yīng)該具有最優(yōu)的分類性能。針對SVM在實際應(yīng)用中有待解決的問題,如要求輸入特征維數(shù)固定,這個條件極大地限制了其處理動態(tài)時間序列的能力,本文對現(xiàn)有的主要特征序列規(guī)整方法進行了實驗比較。實驗證明,在有限樣本的情況下采用有效的特征規(guī)整方法后,SVM識別率優(yōu)于傳統(tǒng)的HMM。
   關(guān)于語音唇讀融合識別問題,提出了一種基于耦合隱馬爾可夫模型(CoupledHide Ma

6、rkov Model, CHMM)的異步信息中期融合識別策略。該策略既考慮到了語音唇讀信息在時間上的相關(guān)性,又解決了兩個信息流之間的異步問題。為簡化計算,通過限制信息流的狀態(tài)數(shù)量和限制信息流之間的異步程度簡化了模型結(jié)構(gòu)。此外,將耦合HMM等效變換為一種雙流HMM后,利用傳統(tǒng)HMM的算法解決了耦合HMM訓(xùn)練與識別問題。在語音唇讀雙模態(tài)數(shù)據(jù)庫上的實驗證明,該算法優(yōu)于同步早期融合法和同步雙流HMM融合法。
   最后,我們建立了國內(nèi)首

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論