數字視頻中的文本分割的研究.pdf_第1頁
已閱讀1頁,還剩116頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、  隨著在多媒體數據制造、存儲與傳播方面取得的重大技術進步,數字視頻在各個領域的應用也越來越廣泛,已經成為大多數人日常生活中經常遇到的一部分,能夠從大量的視頻資料中找到想要的信息成為人們迫切的要求。數字圖像和視頻也是數字圖書館計劃中的核心內容。為了構建數字圖書館,要求將各種信息數字化,以便存儲,檢索和操作。如何管理和檢索海量的視頻數據已經成為近10年來全球學術界和工業(yè)界一個富有挑戰(zhàn)性的熱門話題之一。近年來對視頻檢索系統(tǒng)的構建已經有了一些

2、研究。有的系統(tǒng)是基于低層特性的,如視頻中對象的形狀、區(qū)域的亮度、顏色、紋理、人物動作描述、聲音特征,有的系統(tǒng)是基于高層特征的,如人臉檢測、說話人識別、文本識別。其中從視頻中提取文本信息是比較受關注的一項,也是建立索引的一個重要的來源?! ∥谋臼且曨l中重要的內容信息。視頻中文本的檢測和識別在視頻分析過程中起到很大的作用。文本可以作為視頻片斷的內容標識和索引,例如在新聞視頻中出現(xiàn)的新聞摘要,可以作為該段新聞內容的描述,用于新聞視頻資料的檢

3、索;文字可以作為視頻分段的依據,例如播音員名字或演員表出現(xiàn)的地方,可以作為新聞視頻的開始或影片的結束;文字可以作為視頻內容重要程度的判斷依據,例如出現(xiàn)醒目文字的幀,可以抽取出來作為對應的視頻片斷的代表幀,或者在生成視頻摘要的過程中,出現(xiàn)醒目文字的部分,可以截取下來作為視頻摘要的一部分。所以對文字的分析和處理是視頻分析的重要內容。而檢測視頻中文字的出現(xiàn)及其準確位置,并將文字從復雜多變的背景中分割出來,是視頻文字分析處理的基礎?! ≡谝曨l

4、中提取和識別文字,可以有許多應用:從視頻中提取出來的文本可以作為它們的索引和注釋。例如對于一個關于籃球比賽的視頻,可以提取視頻中球員衣服上的球衣號碼、球員姓名、球隊名字作為注釋和索引。這和建立視頻中基于其他內容的索引相比,如對象的形狀,計算代價要小得多。又如商業(yè)中,多媒體文檔的手工登記工作要消耗大量的人力。如果能夠自動讀取商業(yè)多媒體檔案中的特定文本信息,那就可以節(jié)約不少人力資源?! ⊥瑨呙璩鰜淼奈募D像中的文字的檢測與識別相比,視頻中

5、的文字的檢測與識別需要不同的方法。因為前者一般具有單一的文字顏色和背景顏色,只需要一個簡單的閾值就可以將文字與背景分開。而視頻圖像中往往有多種噪聲成分,文字的背景大多處于運動狀態(tài),字與背景的顏色也經常不單一,分辨率也比較低,如MPEG壓縮格式的視頻。要提取視頻中的文本,首先要對視頻進行分析,找到包含文本的區(qū)域,還要用某些算法弱化背景,增強文本,然后才能交給文本識別模塊OCR(opticalcharacterrecognition)進行識

6、別。多數OCR都要求以二值化圖像作為輸入;有些還要求特定的文檔格式,如新聞、期刊。  從視頻中提取標題信息并不是一件簡單的事情,和用OCR識別文檔圖像相比,從視頻中提取和識別標題信息遇到了新的挑戰(zhàn)。首先,視頻中的標題的背景一般都比較復雜,這使檢測變得更加困難。第二,為了避免遮擋視頻中的其他內容,標題中的字符一般都比較小,因而分辨率一般都比較低。因此視頻幀中的字符的質量不適于直接使用一般的OCR系統(tǒng)進行識別?! ”疚淖プ∫曨l文本分割的

7、幾個關鍵問題,包括視頻鏡頭分割、視頻幀中的文本定位、連續(xù)多幀的視頻文本跟蹤、視頻文本增強、具體的視頻文本分割應用(車牌識別系統(tǒng))展開研究。  本文的主要創(chuàng)新如下:  (1)提出一種結合幀間直方圖差值和差分直方圖方差的視頻鏡頭分割算法,即一種基于數據融合的視頻鏡頭分割算法,通過實驗以及和其它幾種算法的鏡頭分割結果的比較,證明提出的視頻鏡頭分割算法具有檢全率和檢準率高的優(yōu)點,為后續(xù)的鏡頭內的文本定位、文本跟蹤等提供了良好的基礎?! ?

8、2)提出一種基于顏色邊緣與變換支持向量機TSVM的文本定位算法。首先根據文本的顏色邊緣特征進行粗篩選,獲得文本候選區(qū);然后使用TSVM分類器進行文本與非文本分類,實現(xiàn)文本區(qū)域定位與提取。該算法由于考慮了顏色邊緣和利用了TSVM分類器,不僅能夠分離灰度和背景差異較大的文本,還能分離灰度和背景接近,但顏色有差異的文本。試驗證明該算法具有檢全率和檢準率高,而且對文本的語言類型不敏感的優(yōu)點。變換支持向量機與普通的支持向量(SVM)相比,TSVM

9、方法所需的樣本量大大降低,它能有效地經過小樣本數據集訓練后,再進行分類,減輕了手工采集訓練樣本的負擔?! ?3)提出一種視頻中靜止和線性運動文本的跟蹤算法。該算法可以準確跟蹤視頻中靜止和運動的文本,而且不必對每個視頻幀都進行文本定位,從而大大提高了系統(tǒng)效率。實驗證明該算法具有跟全率高,跟準率高的優(yōu)點?! ?4)提出一種基于多幀的視頻文本增強算法。通過多幀分塊分析,可以有效去除復雜的背景,而且對噪聲干擾具有魯棒性,能夠大大提高視頻文本

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論