基于多種特征的信息檢索和網(wǎng)絡(luò)挖掘.pdf_第1頁
已閱讀1頁,還剩146頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、信息檢索和文本挖掘是近十幾年快速發(fā)展的研究領(lǐng)域。傳統(tǒng)上,給定一個用戶的信息需求(Information Need)以及一個待檢索的文檔集和,信息檢索研究如何找到一些合適的文檔來滿足用戶的信息需求。和信息檢索有所不同,文本挖掘(Text Mining)旨在幫助人們從文本的分析中獲取一些基本的信息,如本文屬于哪一類型的文章,中心思想是什么,講述了哪些不同的議題等等。其技術(shù)泛指信息抽取,文本分類,文本聚類,文本摘要等從大量文本中獲取有用信息的

2、技術(shù)。 萬維網(wǎng)正以人們難以想象的速度迅猛發(fā)展。關(guān)于Web發(fā)展的最新評估報告指出,每周有大約8%,也就是3.2億張新網(wǎng)頁誕生。超鏈接的變化更為迅速,每周都有25%新鏈接產(chǎn)生,一年后80%的舊鏈接都被新的所取代。動態(tài)性如此之強,規(guī)模擴大如此之快的萬維網(wǎng)導(dǎo)致網(wǎng)絡(luò)信息過載(Information Overload)問題日益突出。人們開始考慮使用信息檢索和文本挖掘的技術(shù)來克服這些困難。然而,傳統(tǒng)的模型和方法在應(yīng)用到萬維網(wǎng)的同時,需要根據(jù)

3、新的數(shù)據(jù)形式加以演變。 本文討論了如何利用數(shù)據(jù)的多種類型的特征,提高網(wǎng)頁檢索、科技文獻檢索和文本聚類的性能。該文主要的創(chuàng)新和貢獻在于: 1.首先對數(shù)據(jù)的多種特征進行定義和分類。文中所定義的數(shù)據(jù)多種特征是指可從不同的角度刻畫對象在特定環(huán)境下的行為的不同類型的信息源。例如在傳統(tǒng)的文本檢索中,除了單詞或者詞組的分析以外,片段(passage)的結(jié)構(gòu)特征通常用于考慮關(guān)鍵詞間的關(guān)聯(lián)性;在科技文獻的檢索中,引用關(guān)系(citatio

4、n)很好的被用于發(fā)現(xiàn)相關(guān)和權(quán)威論文。結(jié)構(gòu)和引用都是詞語本身的詞義所無法提供的信息。到了萬維網(wǎng)的時代,網(wǎng)頁有了更多豐富的信息,成為了一種典型的多種特征數(shù)據(jù):網(wǎng)頁的統(tǒng)一資源定位器(URL),錨文本(anchor text),超文本標(biāo)記語言(HTML)標(biāo)簽和主題塊結(jié)構(gòu)(topic block)等都可用于信息的檢索和挖掘。如何有效的利用這些特征需要進一步研究。 2.多種特征對信息檢索的改進,包括利用文本片段結(jié)構(gòu)特征,網(wǎng)頁主題塊特征和科

5、技文獻的引用特征改善信息檢索。我們首先介紹傳統(tǒng)檢索中文本片段的特征在對等環(huán)境中的應(yīng)用。然后將普通文本中的片段擴展到網(wǎng)頁中的塊結(jié)構(gòu),進而探討塊結(jié)構(gòu)對基于概率語言模型檢索的影響,并提出一種基于塊狀結(jié)構(gòu)的語言模型(Block-based Language Modeling(BLM))。在BLM的后續(xù)工作中,我們提出自動化的方法測量塊結(jié)構(gòu)的重要程度,并考慮用戶的信息需求,利用偽相關(guān)度反饋的方式進一步修改塊的重要性。在該部分的最后,我們討論了科技

6、文獻中引文分析的改進。一些相關(guān)工作將內(nèi)容和引文分析結(jié)合起來提高相似度的計算,可是這兩種特征并未互相增強以獲得更好的效果。為了解決這個問題,我們提出一種新的算法,主題敏感的相似度傳播(Topic Sensitive Similarity Propagation (TSSP)),更有效的將內(nèi)容相似度集成到相似度傳播的過程中。此外,我們還將TSSP的基本思想擴展,將文獻中不同部分的內(nèi)容利用權(quán)重加以區(qū)分,統(tǒng)一稱為多特征的相似文獻檢索增強算法。

7、 3.多種特征對文本挖掘的改進,包括如何提高文本聚類和基于文本的圖片聚類。聚類在某些場景下是一種切實可行的組織方式,包括瀏覽規(guī)模龐大的文檔集合,或者是搜索引擎返回的結(jié)果。對于這項技術(shù)而言,根據(jù)不同的網(wǎng)頁特征進行挖掘可獲得不同的聚類結(jié)果,我們期望為用戶提供一個統(tǒng)一的,甚至是效果更好的結(jié)果。我們提出兩種新的算法:第一種是基于多種特征的增強式聚類(MFRC)。該算法沒有使用所有特征空間的相似度結(jié)合,而是通過一種特征空間中的聚類中間結(jié)果

8、來增強其它空間內(nèi)的分析。第二種是我們稱其為聚類中的多種特征共同選擇(MFCC)。該項研究是MFRC的后繼工作,它同樣使用了一種特征空間中的中間聚類結(jié)果幫助其它空間中的聚類。在該部分的最后,我們闡述了利用網(wǎng)頁塊結(jié)構(gòu)分析圖片信息的方法??紤]到數(shù)據(jù)記錄類型的網(wǎng)頁中有很多潛在信息可以挖掘,我們?yōu)槊織l記錄對應(yīng)的圖片抽取具有良好的代表性和區(qū)分性的關(guān)鍵詞。然后我們使用這些詞語構(gòu)造層次表示樹(Hierarchical Representation Tr

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論