版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、中文農業(yè)搜索網站的設計與實現(xiàn)中文農業(yè)搜索網站的設計與實現(xiàn)周國民,樊景超,周義桃周國民,樊景超,周義桃(中國農業(yè)科學院農業(yè)信息研究所,北京100081)0引言引言搜索引擎作為解決用戶要在信息海洋里查找信息難這個問題而出現(xiàn)的技術,己成為互聯(lián)網上非常重要的網絡導航服務。目前,web網上擁有超100億的靜態(tài)網頁。而當前的通用搜索引擎所能檢索的網頁一般不超過web網的3040%,即使是用戶最多的Google,其檢索的網頁也只在30億左右。另一方面
2、,web技術的發(fā)展使更多的網頁以動態(tài)形式存在,形成所謂的隱藏web網,據估計這部分的信息是整個靜態(tài)Web空間的500倍以上,而且有遞增的趨勢。由于搜索引擎在Intemet中所具有的重要地位,它一直就是用戶關心的熱點之一,也是各家相關公司全力開發(fā)的技術焦點。我國各類網站發(fā)展非常迅速,而農業(yè)網站僅占這些網站的很小一部分,因此通過綜合的搜索引擎網站,如google、百度等,會搜索到很多無關的信息。據不完全統(tǒng)計,在農業(yè)領域現(xiàn)有各種網站1萬多個,
3、涉及農、林、牧、漁、水利、氣象、農墾、鄉(xiāng)鎮(zhèn)企業(yè)、及其它農業(yè)部門,網頁數(shù)200多萬個,如何僅僅針對這些農業(yè)網站中的信息,開發(fā)一個專業(yè)化的搜索引擎,實現(xiàn)農業(yè)信息的精確搜索是本文研究的出發(fā)點。1系統(tǒng)結構與功能系統(tǒng)結構與功能中文農業(yè)網頁搜索網站(簡稱“農搜”)由網頁抓取模塊、全文分析與索引模塊、全文與語義檢索引擎、全文和語義索引庫、以及交互接口模塊構成。如圖1所示。網頁抓取模塊是根據中文農業(yè)網站地址,按照特定的抓取算法,從網絡上實時采集中文農業(yè)
4、網頁。全文分析與索引模塊包括全文分析與索引、語義分析與索引兩個部分,它把采集回來的中文網頁進行逐個處理,分別構建全文索引和語義索引,并保存到全文和語義索引庫中。全文與語義檢索引擎則根據用戶的查詢請求生成檢索結果集。交互接口模塊完成對查詢語句的分析和檢索結果的高亮顯示以及網站直達功能。“農搜”的主要功能包括如下五個方面:①網頁全文檢索功能,用戶查詢時,提供與關鍵字匹配的結果列表。②網站直達功能,用戶點擊檢索結果的標題超鏈接,即可跳轉到網頁
5、的互聯(lián)網地址。③網頁評分功能,全文引擎和語義引擎根據各自的評分算法,對網頁進行平分和排名。④內容提示功能,全文檢索把輸出的內容含有檢索詞的部分高亮顯示,提示用戶。⑤語義相似網頁檢索功能,根據用戶的選擇文檔,進行二次檢索并輸出相關網頁?!稗r搜”的主頁面如圖2。它特點包括兩個方面。一是,采用了獨特的智能頁面分析技術,實現(xiàn)了中文農業(yè)網頁信息的結構化索引,用戶輸入關鍵詞后,返回的結果集中不再是沒有關聯(lián)和分類的網頁集,而是分成了農業(yè)科研單位、農業(yè)
6、專家人才、農業(yè)實用技術等分門別類的相關網頁信息集,在專業(yè)化、大眾化信息服務的基礎上,實現(xiàn)了精準、個性化的信息服務。二是,實現(xiàn)了“全文檢索語義檢索”的智能檢索引擎,通過使用“全文檢索語義檢索”的智能檢索引擎技術,不但實現(xiàn)了信息的查全率,這點和主流的檢索引擎是一樣,同時比較好的實現(xiàn)了信息的查準率。用戶通過關鍵詞后利用“全文檢索引擎”查到一系列網頁后,“農搜”可以根據用戶指定的任何一個網頁,利用“語義檢索引擎”查到這個頁面的最相似頁面。2關鍵
7、技術關鍵技術“農搜”實現(xiàn)了“全文檢索語義檢索”的智能檢索引擎,由于基于字的或者基于詞的全文檢索引擎已經有很多這方面的研究,本文不再敘述,下面重點介紹我們設計的語義檢索引擎所采用的技術和實現(xiàn)原理。1988年S.T.Dumais等人提出了隱含語義索引(LatentSemanticIndexing)方法,該方法是向量空間模型的一個延伸分支,它是通過統(tǒng)計方法分析大量的文本集,自動生成關鍵字——概念(語義)之間映射規(guī)則,提取并量化這些潛在的語義結
8、構,消除同義詞、多義詞的影響,提高文檔表示的準確性。隱含語義索引方法的提出,使得基于向量空間模型的檢索研究獲得新生,在信息過濾、信息分類、信息聚類、交叉語言檢索、信息理解等眾多領域中得到了廣泛的應用。使用隱含語義索引方法,需要構建隱含語義索引空間,SVD是最早提出使用,也是目前普遍使用的典型隱含語義索引空間的構造方法。但基于SVD的隱含語義索引方法不太合適于大規(guī)模動態(tài)變化的數(shù)據集,而互聯(lián)網上信息的一個顯著特點是數(shù)據量大和數(shù)據變化快,因此
9、,使用這種技術路線來索引和檢索互聯(lián)網上的海量信息并不很成功。1996年T.G.Kolda和D.P.O’Leary提出了一種改進算法來構建隱含語義索引空間,即SDD算法(SeiscreteDecomposition)。日本國家農業(yè)研究中心(NARC)農業(yè)綜合研究所農業(yè)情報研究部的研究人員將SDD算法用于日文網頁和中文網頁的信息檢索,取得了比較好的應用效果,證明了基于SDD算法隱含語義索引方法能夠有效地處理大規(guī)模動態(tài)變化的數(shù)據集。目前國內對
10、基于SDD算法隱含語義索引方法的研究和應用很少。2003年,我們與日本國家農業(yè)研究中心(NARC)農業(yè)綜合研究所農業(yè)情報研究部合作研究,對基于SDD算法隱含語義索引方法進行消化和吸收,并將SDD算法應用到中文網頁的語義檢索中。SDD算法的基本思想是采用盡量少的存儲空間來保存隱含語義索引空間向量。在向量空間模型中,令D=D1,D2,…,Dn表示由m個詞和n個文檔構成的文檔集合,其中Dj=(d1j,d2j,…,dmj)T是文檔向量,dij上
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 主題搜索網絡爬蟲的設計與研究.pdf
- 基于SDD中文農業(yè)網頁搜索系統(tǒng)的設計與實現(xiàn).pdf
- 中醫(yī)藥主題搜索網絡機器人的研究與實現(xiàn).pdf
- 展會搜索服務網站的設計與實現(xiàn).pdf
- 基于元搜索的網站排名系統(tǒng)的設計與實現(xiàn)
- 金盈農業(yè)網站設計與實現(xiàn)
- 金盈農業(yè)網站設計與實現(xiàn)
- 基于元搜索的網站排名系統(tǒng)的設計與實現(xiàn).pdf
- 金盈農業(yè)網站設計與實現(xiàn).doc
- 中文垂直搜索技術的研究與實現(xiàn).pdf
- 中文人名搜索引擎的設計與實現(xiàn).pdf
- 移動中文新聞搜索引擎的設計與實現(xiàn).pdf
- 金盈農業(yè)網站設計與實現(xiàn).doc
- 萬州農業(yè)信息網站的設計與實現(xiàn).pdf
- 基于Nutch的中文主題搜索引擎的設計與實現(xiàn).pdf
- 基于百科的中文知識搜索系統(tǒng)的設計與實現(xiàn).pdf
- 站內中文搜索引擎設計與實現(xiàn).pdf
- 中文局域網搜索引擎設計與實現(xiàn).pdf
- 搜索引擎中文分詞原理與實現(xiàn)
- 基于ROBOT的農業(yè)信息搜索引擎設計與實現(xiàn).pdf
評論
0/150
提交評論