視覺語言分析:從底層視覺特征表達(dá)到語義距離學(xué)習(xí).pdf_第1頁
已閱讀1頁,還剩148頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)圖像資源與日劇增,伴隨而來的是圍繞著網(wǎng)絡(luò)圖像為對(duì)象的眾多研究課題,比如圖像標(biāo)注、圖像檢索、圖像搜索結(jié)果聚類、重復(fù)圖像檢測(cè)、圖像標(biāo)簽推薦、圖像索引、圖像分類、物體檢測(cè)等。這些相關(guān)研究都需要從根本上解決一個(gè)問題,即視覺語義的表達(dá)和度量。因此該問題成為了網(wǎng)絡(luò)圖像研究的一個(gè)基本和核心的問題,也是目前學(xué)術(shù)界和工業(yè)界的重要研究方向。
   目前來看,視覺語義的表達(dá)和度量主要包含四個(gè)基本問題,即圖像表達(dá)、圖像相似度量、概

2、念表達(dá)和概念相關(guān)度量。圖像表達(dá)是指圖像的特征以及特征的組織形式。圖像特征可以生成有一定分辨能力的視覺單詞、視覺短語。圖像的表達(dá)形式也是多種多樣,比如有忽略特征間關(guān)系的,有考慮在一幅圖像中空間關(guān)系的或者共發(fā)頻率的,等等。圖像的距離度量是在特定圖像表達(dá)之上通過機(jī)器學(xué)習(xí)的方法得到的。選擇不同的圖像特征和圖像表達(dá),圖像的距離度量或許不一樣。同樣,概念表達(dá)是指概念的特征及其組織形式。概念的特征是以眾多包含某個(gè)概念的圖像集合上提取的視覺特征為基礎(chǔ)建

3、立的模型,它的通常形式是某個(gè)視覺單詞或者短語出現(xiàn)的頻率、共發(fā)頻率、條件分布、或者轉(zhuǎn)移概率。目前有很多概念建模的方法,比如二維隱馬爾可夫模型、條件隨機(jī)場(chǎng)模型等。本文的后一部分章節(jié)將詳細(xì)討論我們提出的視覺語言模型,保語義單詞包模型,并和其他各種模型進(jìn)行比較。概念距離度量是建立在特定的概念表達(dá)模型或者文本語義關(guān)聯(lián)之上的概念之間的相關(guān)性度量。目前常用的度量方法包括詞網(wǎng)距離、谷歌距離、以及我們提出的Flickr距離。
   本文提出了解決

4、視覺語義的表達(dá)和度量的一系列模型和方法,既有底層特征的創(chuàng)新,也有高層語義模型和距離度量方面的創(chuàng)新。發(fā)表的工作涉及了以上提及的四個(gè)方面挑戰(zhàn),為視覺語義的表達(dá)和度量相關(guān)研究提供了有意義的探索。具體來說本文的成果和創(chuàng)新之處包括以下幾點(diǎn):
   1.本文提出了視覺語言模型,減小了視覺領(lǐng)域和文本領(lǐng)域的語義分析的鴻溝。我們認(rèn)為圖像的局部特征和文本中的單詞一樣是滿足一定的語法順序的。利用計(jì)算這些局部特征在空間位置上的條件分布來表達(dá)這種語法順序

5、,就可以近似的估測(cè)圖像中的視覺語義。因?yàn)樵撃P秃臀谋痉治鲋械淖匀徽Z言模型形式上類似,因此很多文本分析中的方法可以很容易在該模型中推廣。實(shí)驗(yàn)結(jié)果表明該模型效果和很多復(fù)雜的模型相近,但運(yùn)算速度遠(yuǎn)遠(yuǎn)超過其它模型,可以很好的應(yīng)用在大規(guī)模數(shù)據(jù)上。
   2.本文提出了保語義單詞包模型來處理語義鴻溝問題。我們提出了一種語義鴻溝度量方法,并通過選擇從視覺特征到視覺單詞的映射空間來最小化語義鴻溝,從而使得我們產(chǎn)生的詞典可以有更好的分辨能力。實(shí)驗(yàn)

6、也證明了利用最小化語義鴻溝方法生成的詞典在圖像標(biāo)注問題中效果明顯優(yōu)于其他方法。
   3.本文提出了概率相關(guān)成分分析方法用來改進(jìn)圖像相似度量。概率相關(guān)成分分析將圖像之間的邊信息表達(dá)為概率的形式而不是傳統(tǒng)的非0即1的二進(jìn)制表達(dá),提高了圖像距離學(xué)習(xí)的精度。網(wǎng)絡(luò)圖像標(biāo)注的應(yīng)用顯示出該方法比傳統(tǒng)的距離學(xué)習(xí)方法更加高效和準(zhǔn)確。
   4.本文提出了基于視覺特征的概念相關(guān)性度量方法:Flickr距離。該距離可以用來度量?jī)蓚€(gè)概念的不相

7、關(guān)度。我們認(rèn)為相關(guān)的概念同時(shí)出現(xiàn)在同一幅圖像中概率比較大。因此計(jì)算和兩個(gè)概念分別相關(guān)的圖像的視覺語言模型的差別,就可以有效地度量概念之間的不相關(guān)度。和其它基于文本的概念距離度量方法不同,F(xiàn)lickr距離應(yīng)用了概念相關(guān)的圖片信息,從視覺角度度量了概念的相關(guān)性。在多媒體相關(guān)的應(yīng)用問題中可以顯著地提高性能。和人工建立的詞網(wǎng)距離比較,F(xiàn)lickr距離可以自動(dòng)更新以覆蓋更多的新概念,和傳統(tǒng)的谷歌距離比較,F(xiàn)lickr距離利用了視覺信息,實(shí)驗(yàn)證明其

8、更加符合人類的認(rèn)知。
   5.本文將傳統(tǒng)的線性空間距離學(xué)習(xí)推廣到了非線性空間距離,提出了Bregman距離函數(shù)學(xué)習(xí)方法。傳統(tǒng)的Mahalanobis距離學(xué)習(xí)是需要學(xué)習(xí)一個(gè)距離矩陣。該距離度量在整個(gè)空間中是一致的。而樣本在空間的分布疏密可能是有差別的。利用Bregman距離學(xué)習(xí)可能得到一個(gè)和樣本相關(guān)的度量,考慮了局部分布的特性,因此可能更加準(zhǔn)確。實(shí)驗(yàn)表明該方法可以比其他方法更好地處理高維空間的距離學(xué)習(xí)問題。
   6.本

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論