2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩87頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、網絡與信息技術的飛速發(fā)展使得互聯網成為全球信息傳播與共享的重要資源平臺?;ヂ摼W中信息量的幾何級數增長,使得從Web上獲取有用信息的難度變得越來越大?!靶畔⑦^載”已經成為一個急待解決的問題。人們迫切需要一種可以像查詢數據庫一樣查詢Web上的數據的精確查詢方法。因此,如何有效地組織和分析海量的Web信息資源,從中抽取出有用的信息成為眾多研究工作希望解決的問題。近年來產生了主題搜索引擎,它是面向專業(yè)或主題的搜索引擎,只采集與用戶需求相關的信息

2、,幫助其迅速地獲取其所需要的知識和信息,這就需要從Web資源庫中抽取出特定的主題相關信息。目前,在主題搜索引擎所涉及的各項關鍵技術中,結構化信息抽取技術是其不同于通用搜索引擎的關鍵點。在以往的信息抽取技術中,多是對整個網頁進行結構化信息抽取并生成包裝器,由此生成的包裝器在信息抽取中準確率不高。由于網頁中的“非主題”信息參與了信息抽取的過程,可能會對抽取結果產生干擾,這樣會影響最終包裝器抽取同類網頁的準確率。提高信息抽取的效率和準確率可以

3、較大程度地提高主題搜索引擎的適應性,并且為用戶提供高效而且準確的搜索結果。
   本文針對網頁中結構化信息的抽取技術進行研究,通過有效可靠的方法來改進和提高信息抽取環(huán)節(jié)的性能和效率,并盡可能實現自動化信息抽取過程,以此避免人工的過度干預;力求能充分有效的利用各種資源,合理構建信息獲取系統的體系結構。主要研究內容包括:⑴研究Web網頁的批量獲取方法。為了獲取主題搜索引擎所需要的專業(yè)領域信息,就必須要從internet中抓取相關頁面

4、作為原始資料。本文研究了Web頁面抓取所需要的相關技術及抓取子模塊的結構,并實現了一個簡單的Web網頁批量抓取器。⑵研究Web網頁的去噪方法。由于噪音的存在,嚴重影響到頁面主題內容的識別,從而影響到最終搜索結果的質量和效率。因此清除網頁中的噪音內容成為提高搜索引擎精度的重要保證和前提。本文對原有各類網頁分塊去噪模型的優(yōu)缺點進行分析,將統計方法融入基于DOM的網頁分塊模型中,以此提升去噪效果和效率。⑶研究中文文本的向量表示模型和特征向量的

5、提取方法。文本特征表示的優(yōu)劣直接影響到特征屬性的提取,從而影響到后期的文本分類。從以往研究結果來看,向量空間模型的文本特征表示模型中特征詞數量的多少與分類算法的效率有著密切關系,本文研究了特征詞的提取方法,分析了基于空間向量模型的幾種流行特征提取算法,然后深入研究了CHI算法并對其加以改進,以提高算法的性能和效果,更好的進行后期的文本分類處理。⑷研究Web網頁文本的分類方法。由于Web網頁的數量龐大、缺乏可靠的標簽信息等特點,對其加以有

6、效利用就必須首先進行自動分類以獲取較為可靠的類目標簽信息,才能分門別類的進行后續(xù)處理。本文在經典樸素貝葉斯算法的基礎上進行算法改進和系數調整,并在考慮到Web文本數據的特有的半結構化特點的基礎上,在分類過程中提取并利用Web文本的結構信息,以此來加強分類效果,進一步減少分類誤差。
   本文最后對Web網頁文本的分類方法進行了對比實驗,實驗結果表明,文中提出的算法能夠有效的提高分類精度,降低運算時間,適用于主題搜索引擎的信息提取

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論