基于知網(wǎng)和領域本體的Web信息檢索機制研究.pdf_第1頁
已閱讀1頁,還剩70頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、隨著互聯(lián)網(wǎng)的迅速發(fā)展和網(wǎng)上資源的極大豐富,如何快速準確地檢索到用戶所需的信息成為很多人關注的焦點。傳統(tǒng)的基于關鍵字的Web信息檢索方式,由于大多數(shù)關鍵字本身具有語義多義性和領域模糊性,再加上用戶需求描述的模糊性,所以往往難以用一個或幾個關鍵字表達出用戶真正的檢索要求。針對上述問題,并考慮到Web文檔中的超鏈接資源的重要性,本文研究了如何對用戶查詢進行擴展,以及如何結合Web文檔的內(nèi)容和超鏈結構進行更準確的信息檢索,具體的研究成果有以下三

2、條: 第一,本文提出了用知網(wǎng)和領域本體依次從通用性和領域針對性兩個角度對用戶查詢進行理解、推理和擴展的方法,從而對用戶檢索意圖有了一個更加清晰全面的理解。本文使用知網(wǎng)免費版本-Hownet2000,它提供了獨立且較為完備的概念詞典。在熟悉知網(wǎng)建設思想和概念詞典結構的基礎上,本文提出了十種用戶查詢擴展模式,用于對用戶查詢進行詞匯和語法層次上的理解。此后,我們基于領域本體對經(jīng)知網(wǎng)擴展后的用戶查詢進行更具針對性的語義和知識層次的擴展,

3、并且要對擴展后的查詢關鍵字計算權值。本文采用的是基于語料庫統(tǒng)計的方法來計算擴展關鍵字和初始關鍵字之間的概念相似度,以此來確定擴展關鍵字的權值。 第二,本文的Web信息檢索方法結合了基于Web文檔內(nèi)容的信息檢索和基于Web超鏈結構的信息檢索兩種思路。首先用擴展后的用戶查詢對Web文檔進行基于內(nèi)容的信息檢索,根據(jù)一定的閾值標準從檢索結果中選取一定數(shù)量的文檔作為后續(xù)檢索的根集,然后用改進的ARC超鏈接分析算法對擴展后的根集文檔進行基于

4、超鏈結構分析的信息檢索。綜合這兩步檢索步驟所得到的Web文檔組成了最后的輸出結果集。 第三,在對上述的用戶查詢擴展方法和Web文檔信息檢索算法進行了清晰地描述和分析后,筆者設計開發(fā)出了一個針對特定領域的搜索引擎系統(tǒng)。該系統(tǒng)是基于Lucene+EclipSe+Tomcat的Web系統(tǒng),有專門的基于知網(wǎng)的查詢擴展模式配置頁面,并用Jena語義開發(fā)包對領域本體進行推理查詢,提取本體知識以實現(xiàn)對用戶查詢的理解和擴展。實驗結果表明,本文提

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論