基于機(jī)器學(xué)習(xí)的圖像檢索若干問題研究.pdf_第1頁
已閱讀1頁,還剩141頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、近十年來,隨著數(shù)碼相機(jī)、拍照手機(jī)、帶有攝像頭的移動(dòng)電腦的普及,數(shù)字圖像得以大量涌現(xiàn),而隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,特別是web2.0技術(shù)的流行,圖像的傳播和擴(kuò)散也變得越來越容易。如何快速、有效地組織和管理這些海量的圖像信息,已經(jīng)成為學(xué)術(shù)界和工業(yè)界共同關(guān)注的熱點(diǎn)問題。近些年來,隨著研究的深入,機(jī)器學(xué)習(xí)技術(shù)被廣泛的應(yīng)用于圖像檢索領(lǐng)域,例如圖像標(biāo)注、圖像內(nèi)容的分類、用戶反饋的建模、圖像搜索結(jié)果的排序、圖像數(shù)據(jù)集的獲取等等。本文圍繞機(jī)器學(xué)習(xí)框架下的圖

2、像檢索這一研究主題,主要針對(duì)圖像標(biāo)注(image annotation)、圖像重排序(image re-ranking)和物體檢測(cè)(objectdetection)這三個(gè)問題展開研究。主要研究?jī)?nèi)容包括:
   ⑴圖像標(biāo)注的目的是根據(jù)圖像的視覺內(nèi)容來確定對(duì)應(yīng)的文本語義描述。本文提出了一種把詞匯間的語義關(guān)系嵌入到多類支持向量機(jī)中的圖像標(biāo)注方法。首先,每幅圖像被分成5個(gè)固定大小的塊(block),對(duì)于訓(xùn)練集中的圖像,手工指定每個(gè)標(biāo)注詞

3、對(duì)應(yīng)于哪個(gè)塊,詞匯間的語義關(guān)系通過共現(xiàn)矩陣來計(jì)算。然后,利用MPEG-7視覺描述子表示每個(gè)塊的視覺特征。為了減少特征維數(shù),采用了一種名為mRMR(最小重復(fù)性最大相關(guān)性)的特征選擇方法。同時(shí)針對(duì)Corel5000數(shù)據(jù)集中的80個(gè)語義詞,訓(xùn)練了一個(gè)多類支持向量機(jī)分類器。最后,把支持向量機(jī)分類器的后驗(yàn)概率輸出和詞匯間語義關(guān)系集成到一起,用于得到圖像的標(biāo)注詞。在Cord5000數(shù)據(jù)集中的實(shí)驗(yàn)表明此方法是有效的。
   ⑵圖像重排序是指在

4、原始搜索結(jié)果排序的基礎(chǔ)上,通過利用圖像內(nèi)容、挖掘數(shù)據(jù)關(guān)聯(lián)、或者借鑒領(lǐng)域知識(shí)和人工交互,對(duì)原始搜索結(jié)果進(jìn)行重排序提升用戶滿意度的過程。當(dāng)前的商業(yè)搜索引擎盡管在語義相關(guān)性上取得很大進(jìn)步,但由于較少利用圖像內(nèi)容本身,造成圖像排序結(jié)果缺乏視覺多樣性。而一些研究者提出的純粹基于聚類的方法,在取得視覺多樣性的同時(shí),又有把不相關(guān)圖像排在前面的風(fēng)險(xiǎn)。提出了一種同時(shí)兼顧語義相關(guān)性和視覺多樣性的圖像重排序方法,本算法是一種混合方法,把Leuken等人提出的

5、相互投票算法和Deselaers等人提出的貪心算法綜合起來,以同時(shí)獲得兩種方法的優(yōu)點(diǎn)。首先,每幅圖像根據(jù)視覺相似度為其它圖像投票,得票數(shù)最高的一些圖像作為候選者。然后利用一個(gè)受限的輕量級(jí)貪心算法來找出最相關(guān)和最有新鮮感的圖像作為聚類的中心。在計(jì)算視覺相似度時(shí),混合了不同的視覺特征,包括顏色、紋理和主題特征。同時(shí)利用PLSA和LDA兩種潛在主題模型作為降維手段,并在實(shí)驗(yàn)中比較了這兩種主題模型,并討論了綜合主題特征的優(yōu)點(diǎn)。首次引入了聚類查全

6、率和NDCG的調(diào)和平均值作為衡量排序性能的標(biāo)準(zhǔn)。對(duì)Google和Bing的初始排序結(jié)果做了大量的重排序?qū)嶒?yàn),與學(xué)術(shù)界領(lǐng)先的算法做了比較,通過計(jì)算聚類召回率、F1值、聚類召回率與NDCG的調(diào)和平均值表明,本文方法是可行的。
   ⑶物體檢測(cè)的目的在于不僅需要判斷出某圖像中有無該物體,還需要指出該物體在圖像中的具體位置。當(dāng)前領(lǐng)先的物體檢測(cè)技術(shù)主要采用有監(jiān)督的機(jī)器學(xué)習(xí)方法并組合多種特征,這些基于有監(jiān)督學(xué)習(xí)的方法需要大量的訓(xùn)練數(shù)據(jù),但標(biāo)

7、注用于物體檢測(cè)的訓(xùn)練數(shù)據(jù)非常耗時(shí),需要大量的人力。雖然一些研究者提出可以利用web圖像或者半監(jiān)督學(xué)習(xí)技術(shù)來獲取物體的圖像庫,但這些圖像庫中由于沒有物體的具體位置信息,一般情況下只能用于物體的分類。提出可以利用Flickr中的notes數(shù)據(jù)來獲取物體檢測(cè)數(shù)據(jù)集,本方法的目的是希望能夠以較少的人力提供用于物體檢測(cè)的訓(xùn)練數(shù)據(jù),并且保證訓(xùn)練數(shù)據(jù)的高質(zhì)量,這些可以通過挖掘Flickr中的notes數(shù)據(jù)來實(shí)現(xiàn)。Notes數(shù)據(jù)是由用戶在圖像中添加的感

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論