版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、搜索引擎(searchengine)是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序從互聯(lián)網(wǎng)上搜集信息,在對(duì)信息進(jìn)行組織和處理后,為用戶(hù)提供檢索服務(wù),將用戶(hù)檢索相關(guān)的信息展示給用戶(hù)的系統(tǒng)。工作原理:(1)抓取網(wǎng)頁(yè):每個(gè)獨(dú)立的搜索引擎都有自己的網(wǎng)頁(yè)抓取程序(spider)。Spider順著網(wǎng)頁(yè)中的超鏈接,連續(xù)地抓取網(wǎng)頁(yè)。被抓取的網(wǎng)頁(yè)被稱(chēng)之為網(wǎng)頁(yè)快照。由于互聯(lián)網(wǎng)中超鏈接的應(yīng)用很普遍,理論上,從一定范圍的網(wǎng)頁(yè)出發(fā),就能搜集到絕大多數(shù)的網(wǎng)頁(yè)。(2)處理
2、網(wǎng)頁(yè):搜索引擎抓到網(wǎng)頁(yè)后,還要做大量的預(yù)處理工作,才能提供檢索服務(wù)。其中,最重要的就是提取關(guān)鍵詞,建立索引文件。其他還包括去除重復(fù)網(wǎng)頁(yè)、分詞(中文)、判斷網(wǎng)頁(yè)類(lèi)型、分析超鏈接、計(jì)算網(wǎng)頁(yè)的重要度豐富度等。(3)提供檢索服務(wù):用戶(hù)輸入關(guān)鍵詞進(jìn)行檢索,搜索引擎從索引數(shù)據(jù)庫(kù)中找到匹配該關(guān)鍵詞的網(wǎng)頁(yè);為了用戶(hù)便于判斷,除了網(wǎng)頁(yè)標(biāo)題和URL外,還會(huì)提供一段來(lái)自網(wǎng)頁(yè)的摘要以及其他信息。(4)全文搜索引擎:在搜索引擎分類(lèi)部分我們提到過(guò)全文搜索引擎從網(wǎng)站
3、提取信息建立網(wǎng)頁(yè)數(shù)據(jù)庫(kù)的概念。搜索引擎的自動(dòng)信息搜集功能分兩種。一種是定期搜索,即每隔一段時(shí)間(比如Google一般是28天),搜索引擎主動(dòng)派出“蜘蛛”程序,對(duì)一定IP地址范圍內(nèi)的互聯(lián)網(wǎng)站進(jìn)行檢索,一旦發(fā)現(xiàn)新的網(wǎng)站,它會(huì)自動(dòng)提取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫(kù)。另一種是提交網(wǎng)站搜索,即網(wǎng)站擁有者主動(dòng)向搜索引擎提交網(wǎng)址,它在一定時(shí)間內(nèi)(2天到數(shù)月不等)定向向你的網(wǎng)站派出“蜘蛛”程序,掃描你的網(wǎng)站并將有關(guān)信息存入數(shù)據(jù)庫(kù),以備用戶(hù)查詢(xún)。由于近
4、年來(lái)搜索引擎索引規(guī)則發(fā)生了很大變化,主動(dòng)提交網(wǎng)址并不保證你的網(wǎng)站能進(jìn)入搜索引擎數(shù)據(jù)庫(kù),因此目前最好的辦法是多獲得一些外部鏈接,讓搜索引擎有更多機(jī)會(huì)找到你并自動(dòng)將你的網(wǎng)站收錄。當(dāng)用戶(hù)以關(guān)鍵詞查找信息時(shí),搜索引擎會(huì)在數(shù)據(jù)庫(kù)中進(jìn)行搜尋,如果找到與用戶(hù)要求內(nèi)容相符的網(wǎng)站,便采用特殊的算法——通常根據(jù)網(wǎng)頁(yè)中關(guān)鍵詞的匹配程度,出現(xiàn)的位置頻次,鏈接質(zhì)量等——計(jì)算出各網(wǎng)頁(yè)的相關(guān)度及排名等級(jí),然后根據(jù)關(guān)聯(lián)度高低,按順序?qū)⑦@些網(wǎng)頁(yè)鏈接返回給用戶(hù)。這種引擎它
5、的特點(diǎn)是搜全率比較高。組成:搜索引擎一般由搜索器、索引器、檢索器和用戶(hù)接口四個(gè)部分組成。(1)搜索器:其功能是在互聯(lián)網(wǎng)中漫游,發(fā)現(xiàn)和搜集信息;(2)索引器:其功能是理解搜索器所搜索到的信息,從中抽取出索引項(xiàng),用于表示文檔以及生成文檔庫(kù)的索引表;(3)檢索器:其功能是根據(jù)用戶(hù)的查詢(xún)?cè)谒饕龓?kù)中快速檢索文檔,進(jìn)行相關(guān)度評(píng)價(jià),對(duì)將要輸出的結(jié)果排序,并能按用戶(hù)的查詢(xún)需求合理反饋信息;(4)用戶(hù)接口:其作用是接納用戶(hù)查詢(xún)、顯示查詢(xún)結(jié)果、提供個(gè)性化查
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
評(píng)論
0/150
提交評(píng)論