Web新聞文本信息抽取與可視化研究.pdf_第1頁
已閱讀1頁,還剩101頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、隨著計(jì)算機(jī)和互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,人類社會正以驚人的速度產(chǎn)生著海量數(shù)據(jù),文本作為海量數(shù)據(jù)中的一種重要形式,其數(shù)據(jù)量也日益激增,同時旨在從大量文本數(shù)據(jù)中分析發(fā)現(xiàn)有價值信息和知識的文本挖掘技術(shù)應(yīng)運(yùn)而生。大規(guī)模 Web新聞文本中隱含著許多不為人輕易獲知的信息,如大量財經(jīng)新聞蘊(yùn)含著經(jīng)濟(jì)規(guī)律,大量政策新聞蘊(yùn)含著政策變化和執(zhí)行效果等。本文在對信息抽取、復(fù)雜網(wǎng)絡(luò)、文本可視化等理論與關(guān)鍵技術(shù)研究的基礎(chǔ)上,分析了 Web新聞文本特征和用戶信息需求,研究了

2、適用于 Web新聞文本的信息抽取方法與可視化方案,并以國家戰(zhàn)略“互聯(lián)網(wǎng)+”相關(guān)Web新聞文本為研究語料,驗(yàn)證了本文方法的可用性并得到了有價值的結(jié)論。
  本文主要研究工作包括:
 ?。?)分析Web新聞文本特征和用戶信息需求。對Web新聞文本的組成要素(主體、時間、地點(diǎn)、事件、原因、發(fā)生過程)和 Web新聞通常采用的“倒金字塔”型報道結(jié)構(gòu)進(jìn)行分析,結(jié)合用戶信息需求(如“互聯(lián)網(wǎng)+”相關(guān)的行業(yè)、公司),確定需要抽取的信息實(shí)體要素

3、、抽取位置及其權(quán)重分配方法。
 ?。?)研究Web新聞文本信息實(shí)體抽取與關(guān)聯(lián)建立。對Web新聞文本的信息抽取包括信息實(shí)體抽取與信息實(shí)體關(guān)聯(lián)建立。抽取 Web新聞文本中的信息實(shí)體,根據(jù)概念分層與粒度標(biāo)準(zhǔn),對其進(jìn)行必要的概念泛化或概念特化處理;然后建立信息實(shí)體之間的關(guān)聯(lián)關(guān)系,并設(shè)定不同的關(guān)聯(lián)權(quán)重,以關(guān)聯(lián)矩陣的形式表示出信息實(shí)體關(guān)聯(lián)網(wǎng)絡(luò)。
  (3)提出Information Entity Rank(IERank)算法實(shí)現(xiàn)了信息實(shí)

4、體重要性排名。本文在抽取出每條 Web新聞文本的信息實(shí)體并建立它們之間的關(guān)聯(lián)關(guān)系之后,提出IERank算法,通過迭代計(jì)算得到每個信息實(shí)體的IER值,用于標(biāo)識其重要性,最終定量得到所有信息實(shí)體的重要性排名。
 ?。?)構(gòu)建了Web新聞文本可視化基本框架并在案例中給出適用的可視化方案。本文基于Card等人提出的信息可視化參考模型,描述了針對Web新聞文本的可視化處理流程,綜合利用基于詞匯、語義關(guān)系、主題領(lǐng)域、時間序列的可視化技術(shù),使用

5、網(wǎng)絡(luò)圖、時間軸、地理圖等可視化手段,給出了適用于Web新聞文本的可視化方案。
 ?。?)使用本文方法對“互聯(lián)網(wǎng)+”Web新聞文本進(jìn)行信息抽取與可視化,并得到了有價值的結(jié)論。收集整理了“互聯(lián)網(wǎng)+”主題領(lǐng)域Web新聞文本語料庫,應(yīng)用本文方法抽取出信息實(shí)體,并建立信息實(shí)體之間的關(guān)聯(lián)關(guān)系,然后計(jì)算得到所有信息實(shí)體的重要性排名,最后基于關(guān)聯(lián)網(wǎng)絡(luò)、時間序列、地理位置等多個角度,使用網(wǎng)絡(luò)圖、時間軸、地理圖等可視化手段進(jìn)行可視化分析,得到了“互聯(lián)

6、網(wǎng)+”的行業(yè)發(fā)展?fàn)顩r、地理分布情況等有價值的結(jié)論。
  總之,本文分析了 Web新聞文本特征和用戶信息需求,研究了信息實(shí)體抽取及關(guān)聯(lián)建立的方法,提出IERank算法實(shí)現(xiàn)了信息實(shí)體重要性排名,并給出了Web新聞文本可視化基本框架,最后以“互聯(lián)網(wǎng)+”相關(guān)的Web新聞文本為例,驗(yàn)證了本文方法的可用性并得到了有價值的結(jié)論。本文研究為 Web新聞文本信息抽取和可視化提供了整套的框架模式及相關(guān)的技術(shù)方法,在新聞文本挖掘領(lǐng)域具有較好的理論意義和

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論