面向知識(shí)服務(wù)的多媒體數(shù)據(jù)挖掘關(guān)鍵技術(shù)研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩122頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、隨著以Internet為代表的信息社會(huì)的高速發(fā)展,Web網(wǎng)絡(luò)包含的文本、圖像、音頻和視頻等多媒體信息急劇增加,人們對(duì)多媒體信息的挖掘和檢索的需求也在快速增長(zhǎng)。將數(shù)據(jù)挖掘領(lǐng)域知識(shí)應(yīng)用于多媒體數(shù)據(jù)的描述與分析,可以得到更加豐富的信息獲取價(jià)值。 本文針對(duì)文本數(shù)據(jù)挖掘分類、Web信息抽取、圖像區(qū)域分割與檢索、音頻自動(dòng)分段與檢索四個(gè)研究方向,圍繞信息處理效率的優(yōu)化和信息挖掘功能與精度的優(yōu)化為目標(biāo),為多媒體數(shù)據(jù)挖掘領(lǐng)域內(nèi)實(shí)際的一些研究問(wèn)題提

2、出了有效的解決方法。本文的主要研究?jī)?nèi)容分為以下四個(gè)部分: 1、針對(duì)數(shù)據(jù)挖掘領(lǐng)域關(guān)注的支持向量機(jī)多值分類領(lǐng)域問(wèn)題,通過(guò)分析當(dāng)前幾種基于支持向量機(jī)的多值分類算法的不足,提出了一種非線性支持向量機(jī)決策樹的分類方法。與一般的線性支持向量機(jī)決策樹分類算法相比,該算法的分類精度有了一定提高,同時(shí)分類時(shí)間也相應(yīng)降低。具體的創(chuàng)新點(diǎn)包括:通過(guò)核函數(shù)將支持向量機(jī)推廣到非線性支持向量機(jī),并在非線性映射后計(jì)算特征空間中類間相對(duì)分離度,得到類的易分程度;

3、在支持向量機(jī)決策樹分類中引入相對(duì)分離度,有效地降低累積誤差,減少計(jì)算規(guī)模,從而提高分類精度與分類效率。 2、針對(duì)Web頁(yè)面信息高級(jí)抽取模型這一困難問(wèn)題和現(xiàn)有抽取方法在Web信息視覺(jué)對(duì)象化、語(yǔ)義化等方面的不足,提出了基于版面結(jié)構(gòu)和基于內(nèi)容塊的狀態(tài)轉(zhuǎn)移序列,以及輸出多特征的GHMM信息抽取模型。從而代替了傳統(tǒng)的基于狀態(tài)轉(zhuǎn)移規(guī)則的信息抽取模型HMM。此方法的狀態(tài)轉(zhuǎn)移規(guī)則是基于網(wǎng)頁(yè)的版面結(jié)構(gòu)的基礎(chǔ)上,更好的使用于網(wǎng)頁(yè)的具體特征。通過(guò)實(shí)驗(yàn)

4、證明了此方法針對(duì)于Web對(duì)象信息提取相對(duì)于文中描述的其它方法具有更好的精確度。具體的創(chuàng)新點(diǎn)包括:針對(duì)網(wǎng)頁(yè)所特有的基于版面結(jié)構(gòu)的特點(diǎn),利用基于視覺(jué)的網(wǎng)頁(yè)分割算法VIPS對(duì)網(wǎng)頁(yè)分塊,得到一種新的狀態(tài)轉(zhuǎn)移序列,取代了傳統(tǒng)的狀態(tài)轉(zhuǎn)移序列;通過(guò)二階Markov鏈改進(jìn)廣義隱馬爾可夫模型(GHMM)的狀態(tài)轉(zhuǎn)移和輸出觀測(cè)值假設(shè)條件,提出了二階的廣義隱馬爾可夫模型。 3、針對(duì)多媒體數(shù)據(jù)挖掘中圖像信息的有效結(jié)構(gòu)化分割與基于圖像區(qū)域內(nèi)容的檢索問(wèn)題,提

5、出了一種基于相對(duì)勢(shì)能的改進(jìn)分水嶺分割算法。該方法在形態(tài)學(xué)梯度圖像的基礎(chǔ)上,利用形態(tài)學(xué)開(kāi)閉重建濾波運(yùn)算和給定尺度的非線性變換對(duì)圖像進(jìn)行濾波,保留了重要的區(qū)域輪廓而去除了細(xì)節(jié)和噪聲。使用更易于被理解和實(shí)現(xiàn)的相對(duì)勢(shì)能,圖像分割過(guò)程中直接對(duì)分水嶺的重要性進(jìn)行衡量,去掉不必要的細(xì)節(jié)。具體的創(chuàng)新點(diǎn)包括:在傳統(tǒng)分水嶺算法模型上引入相對(duì)勢(shì)能方法,能夠有效抑制過(guò)度分割,避免分割后的區(qū)域合并處理,降低分割的復(fù)雜性,提高圖像分割精度與潛在基于區(qū)域的檢索效率。

6、 4、針對(duì)多媒體數(shù)據(jù)挖掘中音頻信息的特征抽取分段與基于聲音內(nèi)容模板的檢索問(wèn)題,提出了改進(jìn)的多變化點(diǎn)音頻自動(dòng)分割算法。該算法不需要采集樣本,根據(jù)特征變化點(diǎn)來(lái)進(jìn)行分割,取得了良好的分割結(jié)果。并結(jié)合采用時(shí)域、頻域和時(shí)頻域分析方法,從不同角度刻畫了音頻信號(hào)的實(shí)質(zhì),構(gòu)成了音頻信號(hào)的描述算子。音頻檢索采用示例音頻查詢方式(QBE),先使用最小生成樹(MST)聚類方法形成關(guān)鍵幀,然后對(duì)同類型的幀進(jìn)行匹配比較,減少了計(jì)算的強(qiáng)度,大大提高了檢索效

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論