基于概率圖模型的圖像整體場(chǎng)景理解方法研究.pdf_第1頁
已閱讀1頁,還剩174頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、場(chǎng)景理解作為圖像處理和計(jì)算機(jī)視覺研究領(lǐng)域中極其重要的基礎(chǔ)性任務(wù),其研究成果已廣泛應(yīng)用于軍事無人機(jī)、航天器導(dǎo)航、網(wǎng)絡(luò)多媒體信息搜索、智能監(jiān)控、智能交通、醫(yī)療信息化等眾多軍事和民用領(lǐng)域,顯示了其重要的學(xué)術(shù)研究和應(yīng)用價(jià)值。場(chǎng)景理解的各子任務(wù)如圖像顯著性檢測(cè)、圖像目標(biāo)檢測(cè)、圖像分割、場(chǎng)景分類、圖像標(biāo)注等的研究工作都已取得了突破性進(jìn)展。圖像整體場(chǎng)景理解作為其延伸,其復(fù)雜性和綜合性遠(yuǎn)高于基本圖像理解任務(wù),目前研究還處于起步階段。近年圍繞“整體理解”

2、的指導(dǎo)思想,學(xué)者們提出了任務(wù)集成和特征信息集成的研究思路,研究如何將這些分支任務(wù)融為一體或者綜合利用整體場(chǎng)景信息,以實(shí)現(xiàn)整體場(chǎng)景理解的最終目標(biāo),并據(jù)此提出多種整體理解解決方案。但目前已有研究成果并不完全令人滿意。因此,本文著眼于圖像顯著性檢測(cè)、場(chǎng)景分類、圖像分割、圖像標(biāo)注以及它們之間整體集成等研究熱點(diǎn)和難點(diǎn)。通過概率圖模型建模,針對(duì)已有研究中的不足開展研究,并提出了相應(yīng)的解決方法。本文主要內(nèi)容和貢獻(xiàn)如下:
  一、對(duì)圖像整體場(chǎng)景理

3、解的背景、研究現(xiàn)狀、主要技術(shù)難題和解決方案等進(jìn)行了系統(tǒng)研究,對(duì)現(xiàn)有的典型圖像整體場(chǎng)景理解模型及其相應(yīng)的特征工程進(jìn)行了對(duì)比分析,提出基于概率圖模型的圖像整體場(chǎng)景理解及其特征工程的基本框架。研究表明,圖像整體場(chǎng)景理解是非常有前景的研究熱點(diǎn)和難點(diǎn)之一,已取得了顯著進(jìn)展,但仍然存在不少技術(shù)難題阻礙了整體場(chǎng)景理解模型在實(shí)際中的廣泛應(yīng)用,例如:模型集成、有效特征工程選擇、圖像整體場(chǎng)景認(rèn)知理論地深入分析、模型與特征工程有效匹配等。本研究?jī)?nèi)容為后續(xù)研究

4、提供理論依據(jù)和重要參考。
  二、針對(duì)圖像顯著性檢測(cè)和分割中存在的顯著性對(duì)象邊緣和空間邏輯關(guān)系保留問題,提出了一個(gè)直接進(jìn)行圖像顯著性檢測(cè)和分割的解決方案,為進(jìn)一步圖像理解奠定基礎(chǔ)。具體而言,1)提出改進(jìn)的基于圖切算法實(shí)現(xiàn)圖像的首次粗分割,拓寬了圖切算法的適用場(chǎng)合即可用于非交互式場(chǎng)景,并且能很好地保存顯著性對(duì)象邊緣和空間邏輯依賴關(guān)系。2)為了消除首次分割后產(chǎn)生的部分冗余區(qū)域,提出基于最近鄰圖的超像素圖分割的區(qū)域亮度比較方法:(1)首

5、先將首次分割結(jié)果再次分割成2到4個(gè)區(qū)域;(2)采用基于韋伯亮度基準(zhǔn)的區(qū)域亮度比較方法實(shí)現(xiàn)區(qū)域比較,有效地剔除那些亮度小的非顯著性冗余區(qū)域,進(jìn)一步改進(jìn)整體方案的圖像顯著性檢測(cè)和分割性能。
  三、針對(duì)圖像分類特征高維性和分類模型參數(shù)優(yōu)化問題,提出了基于特征核變換和隨機(jī)超參數(shù)優(yōu)化的圖像場(chǎng)景分類方法。1)基于圖像特征提取和特征維度對(duì)模型執(zhí)行性能和分類準(zhǔn)確率的重要影響,提出基于PHOW特征提取和KPCA核變換的特征降維方法,有效地降低了特

6、征維度,同時(shí)不失準(zhǔn)確率。2)模型參數(shù)對(duì)模型性能影響極大,為了解決模型參數(shù)優(yōu)化問題,提出對(duì)模型分類器進(jìn)行隨機(jī)超參數(shù)優(yōu)化方法,實(shí)驗(yàn)證明了提出方法的有效性。3)比較了經(jīng)典的兩類分類器:支撐向量機(jī)和伯努利貝葉斯分類器。實(shí)驗(yàn)表明,伯努利貝葉斯分類器在分類準(zhǔn)確率方面低于支撐向量機(jī),但其執(zhí)行性能則明顯好于支撐向量機(jī)。
  四、提出了基于全局上下文特征和貝葉斯主題模型的圖像整體場(chǎng)景理解框架,模型集成了場(chǎng)景分類、圖像標(biāo)注和語義分割三項(xiàng)基本子任務(wù)。模

7、型充分利用兩方面的全局上下文信息,一是融入圖像全局上下文信息提升了圖像場(chǎng)景分類和圖像標(biāo)注性能;二是改進(jìn)超像素分割方法及其與圖像小塊的特征表達(dá),改善了分割性能。具體而言,1)場(chǎng)景分類和圖像標(biāo)注部分:(1)改進(jìn)了特征信息的提取方法,采用本文第四章提出的PHOW特征提取方式,得到每幅圖像的語義特征信息;(2)對(duì)語義特征進(jìn)行進(jìn)一步學(xué)習(xí)得到全局上下文特征。2)語義分割部分:(1)改進(jìn)了超像素區(qū)域的分割方法,采用 UCM方法(文獻(xiàn)[66]),改善了

8、分割精度和對(duì)象邊緣細(xì)節(jié)保留能力;(2)改進(jìn)超像素區(qū)域和圖像小塊特征表達(dá),融入 DSIFT、紋理濾波、RGB顏色、HOG特征、LBP特征和位置特征。實(shí)驗(yàn)證明,由于全局特征信息的融入,模型整體性能在三個(gè)子任務(wù)上均得到提升。
  五、提出了基于圖像本質(zhì)特征和CRF模型的整體場(chǎng)景理解模型,集成了場(chǎng)景分類、語義分割和對(duì)象檢測(cè)三個(gè)子任務(wù)。具體而言,1)場(chǎng)景分類部分:圖像整體特征信息能更好地增強(qiáng)場(chǎng)景的區(qū)分性,采用本文第四章提出的PHOW加KPC

9、A降維的方式,得到每幅圖像的特征信息。2)對(duì)象檢測(cè)部分:基于圖像的顯著性檢測(cè)和分割特性對(duì)對(duì)象檢測(cè)有重要的幫助,提出在對(duì)象檢測(cè)判別中融入本文第三章所提出的顯著性分割后所得到的圖像信息。3)語義分割部分:(1)單元分割勢(shì)能部分,我們?nèi)谌肓薍OG特征、RGB顏色直方圖特征和LBP特征,通過文獻(xiàn)[38]的方法得到超像素區(qū)域的單元?jiǎng)菽?;?)我們利用圖像的內(nèi)在流形結(jié)構(gòu)特征能更好地反映超像素分割區(qū)域之間的重要程度,有助于最終分割準(zhǔn)確率提高的特點(diǎn),提

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論