版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、基于JAVA技術(shù)的搜索引擎的研究與實現(xiàn)目錄目錄目錄目錄............................................................................................................................................................1摘要摘要................................
2、............................................................................................................................3第一章第一章引言引言.....................................................................................
3、...........................................................4第二章第二章搜索引擎的結(jié)構(gòu)搜索引擎的結(jié)構(gòu)..............................................................................................................................52.1系統(tǒng)概述......
4、.....................................................................................................................................52.2搜索引擎的構(gòu)成............................................................................
5、....................................................52.2.1網(wǎng)絡(luò)機器人................................................................................................................................52.2.2索引與搜索..................
6、..............................................................................................................52.2.3Web服務(wù)器..................................................................................................
7、.............................62.3搜索引擎的主要指標及分析..............................................................................................................62.4小節(jié)...........................................................
8、.......................................................................................6第三章第三章網(wǎng)絡(luò)機器人網(wǎng)絡(luò)機器人....................................................................................................................
9、.................73.1什么是網(wǎng)絡(luò)機器人.............................................................................................................................73.2網(wǎng)絡(luò)機器人的結(jié)構(gòu)分析....................................................
10、.................................................................73.2.1如何解析HTML.........................................................................................................................73.2.2Spider程序結(jié)構(gòu)....
11、....................................................................................................................83.2.3如何構(gòu)造Spider程序......................................................................................
12、..........................93.2.4如何提高程序性能...................................................................................................................113.2.5網(wǎng)絡(luò)機器人的代碼分析................................................
13、................................................................123.3小節(jié)................................................................................................................................................14第四章
14、第四章基于基于LUCENE的索引與搜索的索引與搜索.......................................................................................................154.1什么是LUCENE全文檢索..........................................................................
15、....................................154.2LUCENE的原理分析......................................................................................................................154.2.1全文檢索的實現(xiàn)機制..................................
16、..............................................................................154.2.2Lucene的索引效率.................................................................................................................154.2.3中文切分
17、詞機制......................................................................................................................174.3LUCENE與SPIDER的結(jié)合..............................................................................
18、............................184.4小節(jié)................................................................................................................................................21第五章第五章基于基于TOMCAT的WEB服務(wù)器服務(wù)器.............
19、.......................................................................................225.1什么是基于TOMCAT的WEB服務(wù)器............................................................................................225.2用戶接口設(shè)計.......
20、...........................................................................................................................225.3.1客戶端設(shè)計.....................................................................................
21、.........................................225.3.2服務(wù)端設(shè)計..............................................................................................................................235.3在TOMCAT上部署項目........................
22、.........................................................................................255.4小節(jié)............................................................................................................................
23、....................25第六章第六章搜索引擎策略搜索引擎策略...............................................................................................................................266.1簡介..............................................
24、..................................................................................................26是基于因特網(wǎng)的搜索引擎,他們通過網(wǎng)絡(luò)機器人程序收集上千萬到幾億個網(wǎng)頁,并且每一個詞都被搜索引擎索引,也就是我們說的全文檢索。著名的因特網(wǎng)搜索引擎包括FirstSearch、Google、HotBot等。在中國,搜索引擎通常指基于網(wǎng)站目錄的搜
25、索服務(wù)或是特定網(wǎng)站的搜索服務(wù),本人這里研究的是基于因特網(wǎng)的搜索技術(shù)。第二章第二章搜索引擎的結(jié)構(gòu)搜索引擎的結(jié)構(gòu)2.1系統(tǒng)概述系統(tǒng)概述搜索引擎是根據(jù)用戶的查詢請求,按照一定算法從索引數(shù)據(jù)中查找信息返回給用戶。為了保證用戶查找信息的精度和新鮮度,搜索引擎需要建立并維護一個龐大的索引數(shù)據(jù)庫。一般的搜索引擎由網(wǎng)絡(luò)機器人程序、索引與搜索程序、索引數(shù)據(jù)庫等部分組成。系統(tǒng)結(jié)構(gòu)圖2.2搜索引擎的構(gòu)成搜索引擎的構(gòu)成2.2.1網(wǎng)絡(luò)機器人網(wǎng)絡(luò)機器人網(wǎng)絡(luò)機器人也
26、稱為“網(wǎng)絡(luò)蜘蛛”(Spider),是一個功能很強的WEB掃描程序。它可以在掃描WEB頁面的同時檢索其內(nèi)的超鏈接并加入掃描隊列等待以后掃描。因為WEB中廣泛使用超鏈接,所以一個Spider程序理論上可以訪問整個WEB頁面。為了保證網(wǎng)絡(luò)機器人遍歷信息的廣度和深度需要設(shè)定一些重要的鏈接并制定相關(guān)的掃描策略。2.2.2索引與搜索索引與搜索網(wǎng)絡(luò)機器人將遍歷得到的頁面存放在臨時數(shù)據(jù)庫中,如果通過SQL直接查詢信息速度將會難以忍受。為了提高檢索效率,
27、需要建立索引,按照倒排文件的格式存放。如果索引不及時跟新的話,用戶用搜索引擎也不能檢索到。用戶輸入搜索條件后搜索程序?qū)⑼ㄟ^索引數(shù)據(jù)庫進行檢索然后把符合查詢要求的數(shù)據(jù)庫按照一定的策略進行分級排列并且返回給用戶。2.2.3Web服務(wù)器服務(wù)器客戶一般通過瀏覽器進行查詢,這就需要系統(tǒng)提供Web服務(wù)器并且與索引數(shù)據(jù)庫進行連接??蛻粼跒g覽器中輸入查詢條件,Web服務(wù)器接收到客戶的查詢條件后在索引數(shù)據(jù)庫中進行查詢、排列然后返回給客戶端。2.3搜索引擎
28、的主要指標及分析搜索引擎的主要指標及分析搜索引擎的主要指標有響應(yīng)時間、召回率、準確率、相關(guān)度等。這些指標決定了搜索引擎的技術(shù)指標。搜索引擎的技術(shù)指標決定了搜索引擎的評價指標。好的搜索引擎應(yīng)該是具有較快的反應(yīng)速度和高召回率、準確率的,當然這些都需要搜索引擎技術(shù)指標來保障。召回率召回率:一次搜索結(jié)果中符合用戶要求的數(shù)目與用戶查詢相關(guān)信息的總數(shù)之比準確率準確率:一次搜索結(jié)果中符合用戶要求的數(shù)目與該次搜索結(jié)果總數(shù)之比相關(guān)度相關(guān)度:用戶查詢與搜索
29、結(jié)果之間相似度的一種度量精確度精確度:對搜索結(jié)果的排序分級能力和對垃圾網(wǎng)頁的抗干擾能力2.4小節(jié)小節(jié)以上對基于因特網(wǎng)的搜索引擎結(jié)構(gòu)和性能指標進行了分析,本人在這些研究的基礎(chǔ)上利用JavaTM技術(shù)和一些OpenSource工具實現(xiàn)了一個簡單的搜索引擎——新聞搜索引擎。在接下來的幾章里將會就本人的設(shè)計進行詳細的分析。第三章第三章網(wǎng)絡(luò)機器人網(wǎng)絡(luò)機器人3.1什么是網(wǎng)絡(luò)機器人什么是網(wǎng)絡(luò)機器人網(wǎng)絡(luò)機器人又稱為Spider程序,是一種專業(yè)的Bot程序
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于java技術(shù)的搜索引擎的研究與實現(xiàn)
- 基于Java技術(shù)的搜索引擎研究與實現(xiàn).pdf
- 基于java技術(shù)的搜索引擎的研究與實現(xiàn)42971
- 基于java搜索引擎設(shè)計與實現(xiàn)
- 基于java的搜索引擎設(shè)計與實現(xiàn)
- 基于Java的垂直搜索引擎的設(shè)計與實現(xiàn).pdf
- 基于Java的新聞搜索引擎的設(shè)計與實現(xiàn).pdf
- 基于Java的元搜索引擎的研究及實現(xiàn).pdf
- 主題搜索引擎索引技術(shù)的研究與實現(xiàn).pdf
- 基于JAVA的源代碼搜索引擎架構(gòu)實現(xiàn).pdf
- 搜索引擎的研究與實現(xiàn)
- 搜索引擎技術(shù)的研究與實現(xiàn)—元搜索引擎和文本聚類.pdf
- 專業(yè)搜索引擎索引技術(shù)的研究與實現(xiàn).pdf
- 搜索引擎的設(shè)計與實現(xiàn)
- 搜索引擎的設(shè)計與實現(xiàn)
- 搜索引擎優(yōu)化技術(shù)的研究與實現(xiàn).pdf
- 搜索引擎的研究與實現(xiàn).docx
- 基于LUCENE的搜索引擎研究與實現(xiàn).pdf
- [學(xué)習(xí)]搜索引擎優(yōu)化與搜索引擎營銷
- 搜索引擎的設(shè)計與實現(xiàn)
評論
0/150
提交評論