基于文本和圖像內(nèi)容分析的中文敏感網(wǎng)頁(yè)識(shí)別關(guān)鍵技術(shù)研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩77頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)已經(jīng)成為人們?nèi)粘+@取信息和知識(shí)的重要媒介?;ヂ?lián)網(wǎng)包含了龐大的信息量,具有開放性、動(dòng)態(tài)性、匿名性、互動(dòng)性等特點(diǎn),它不僅給人們帶來了豐富的信息,也成為人們自由交互信息的平臺(tái)。與此同時(shí),互聯(lián)網(wǎng)固有的分散性等特點(diǎn)也給網(wǎng)絡(luò)資源統(tǒng)一管理造成了困難。許多敏感的、不健康的、甚至是惡意的信息摻雜其中,對(duì)社會(huì)穩(wěn)定和人們身心健康造成了極大的危害,特別是影響青少年的健康成長(zhǎng)。為此,我國(guó)乃至世界各地都對(duì)打擊網(wǎng)絡(luò)敏感信息十分重視,制定了一

2、些法律法規(guī),也開展了一些專項(xiàng)整治活動(dòng)。如何能夠借助計(jì)算機(jī)分析技術(shù)手段,自動(dòng)地識(shí)別和過濾網(wǎng)絡(luò)上的敏感信息,已經(jīng)成為凈化網(wǎng)絡(luò)、促進(jìn)網(wǎng)絡(luò)健康發(fā)展的一項(xiàng)重要研究課題。
   網(wǎng)絡(luò)中網(wǎng)頁(yè)的形式及內(nèi)容多種多樣,并且隨著多媒體技術(shù)的不斷發(fā)展,網(wǎng)頁(yè)中的媒體類型也越來越多樣,現(xiàn)有的基于單一媒體的敏感網(wǎng)頁(yè)識(shí)別技術(shù)己難以滿足網(wǎng)絡(luò)實(shí)際發(fā)展的需要。由于網(wǎng)頁(yè)內(nèi)容主要包括文本和圖像兩種媒體格式,本文提出一種基于文本和圖像內(nèi)容分析的敏感網(wǎng)頁(yè)識(shí)別的方法,并對(duì)其中

3、的一些關(guān)鍵技術(shù),如文本內(nèi)容分析、敏感圖像識(shí)別、信息融合等進(jìn)行了初步的研究和探討。
   本文的主要內(nèi)容包括以下幾個(gè)部分:
   (1)分析了目前文本分類方法中的關(guān)鍵技術(shù),提出了一種基于文本內(nèi)容分析的敏感網(wǎng)頁(yè)識(shí)別方法。
   本文提出的基于文本內(nèi)容分析的敏感網(wǎng)頁(yè)識(shí)別主要包括中文分詞、停用詞表的建立、特征選擇、文本表示、分類器等5個(gè)關(guān)鍵技術(shù),本文分別對(duì)這5個(gè)部分進(jìn)行了研究。為豐富中文分詞詞庫(kù),提出了一種以詞頻統(tǒng)計(jì)為主

4、、以人工判決為輔并標(biāo)注詞性的新詞識(shí)別算法。提出了一種停用詞表的建立算法,據(jù)此建立了含300個(gè)停用詞的停用詞表。比較了基于文檔頻率選擇、基于信息增益選擇、開方擬合檢驗(yàn)統(tǒng)計(jì)量、基于幾率比選擇等4種特征選擇方法,比較不同維數(shù)特征庫(kù)下的識(shí)別效果。在對(duì)比分析的基礎(chǔ)上,選擇了開方擬合檢驗(yàn)統(tǒng)計(jì)量方法作為特征選擇方法,并確定了400維的特征詞庫(kù)。根據(jù)開方擬合統(tǒng)計(jì)量特征選擇方法與樸素貝葉斯分類器的特點(diǎn),加入待分類網(wǎng)頁(yè)文本中所含特征項(xiàng)數(shù)目與特征集維數(shù)的比值

5、以及特征項(xiàng)數(shù)目與文本所含詞匯數(shù)目的比值兩個(gè)影響因子,對(duì)樸素貝葉斯分類器進(jìn)行改進(jìn)。最終得到了較為理想的識(shí)別效果。
   (2)基于D-S證據(jù)理論,實(shí)現(xiàn)了網(wǎng)頁(yè)中文本和圖像的信息融合,根據(jù)信息融合結(jié)果確定網(wǎng)頁(yè)的敏感程度。
   由于敏感信息缺乏統(tǒng)一的標(biāo)準(zhǔn)定義,而且判斷敏感與否通常較為主觀,對(duì)敏感文本和圖像識(shí)別有一定的不確定度。因此,本文選用了支持含不確定度信息融合的D-S證據(jù)理論,融合文本和圖像信息對(duì)敏感網(wǎng)頁(yè)進(jìn)行識(shí)別,據(jù)此得到

6、網(wǎng)頁(yè)的敏感度值,其中圖像信息的識(shí)別采用了一種基于多代價(jià)敏感決策樹的壓縮域敏感圖像識(shí)別方法。實(shí)驗(yàn)結(jié)果表明,通過D-S證據(jù)理論將文本信息和圖像信息融合之后,對(duì)敏感網(wǎng)頁(yè)識(shí)別比單獨(dú)利用文本信息識(shí)別更加符合網(wǎng)頁(yè)敏感程度的實(shí)際狀況。
   (3)搭建了基于文本和圖像內(nèi)容分析的敏感網(wǎng)頁(yè)識(shí)別系統(tǒng)。
   為了驗(yàn)證所提算法的有效性,本文提出了一種面向敏感網(wǎng)頁(yè)的網(wǎng)頁(yè)獲取方案,基于MFC(Microsoft Foundation Class)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論