搜索引擎原理07065_第1頁
已閱讀1頁,還剩1頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、搜索引擎定義萬維網(wǎng)環(huán)境中的信息檢索系統(tǒng)(包括目錄服務(wù)和關(guān)鍵字檢索兩種服務(wù)方式)。搜索引擎概念搜索引擎是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序從互聯(lián)網(wǎng)上搜集信息,在對信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù),將用戶檢索相關(guān)的信息展示給用戶的系統(tǒng)。搜索引擎包括全文索引、目錄索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、門戶搜索引擎與免費(fèi)鏈接列表等。百度和谷歌等是搜索引擎的代表。搜索引擎原理搜索引擎,通常指的是收集了因特網(wǎng)上幾千萬到幾十億個(gè)

2、網(wǎng)頁并對網(wǎng)頁中的每一個(gè)詞(即關(guān)鍵詞)進(jìn)行索引,建立索引數(shù)據(jù)庫的全文搜索引擎。當(dāng)用戶查找某個(gè)關(guān)鍵詞的時(shí)候,所有在頁面內(nèi)容中包含了該關(guān)鍵詞的網(wǎng)頁都將作為搜索結(jié)果被搜出來。在經(jīng)過復(fù)雜的算法進(jìn)行排序后,這些結(jié)果將按照與搜索關(guān)鍵詞的相關(guān)度高低,依次排列。全文索引目錄索引搜索元搜索引擎引擎垂直搜索引擎分類集合式搜索引擎門戶式搜索引擎免費(fèi)連接列表搜索引擎結(jié)構(gòu)劃分搜索引擎的基本上分為四個(gè)步驟:1.爬行和抓取搜索引擎派出一個(gè)能夠在網(wǎng)上發(fā)現(xiàn)新網(wǎng)頁并抓文件的

3、程序,這個(gè)程序通常稱之為蜘蛛。搜索引擎從已知的數(shù)據(jù)庫出發(fā),就像正常用戶的瀏覽器一樣訪問這些網(wǎng)頁并抓取文件。搜索引擎會(huì)跟蹤網(wǎng)頁中的鏈接,訪問更多的網(wǎng)頁,這個(gè)過程就叫爬行。這些新的網(wǎng)址會(huì)被存入數(shù)據(jù)庫等待抓取。所以跟蹤網(wǎng)頁鏈接是搜索引擎蜘蛛發(fā)現(xiàn)新網(wǎng)址的最基本的方法,所以反向鏈接成為搜索引擎優(yōu)化的最基本因素之一。搜索引擎抓取的頁面文件與用戶瀏覽器得到的完全一樣,抓取的文件存入數(shù)據(jù)庫。2.索引蜘蛛抓取的頁面文件分解、分析,并以巨大表格的形式存入數(shù)

4、據(jù)庫,這個(gè)過程既是索引(index).在索引數(shù)據(jù)庫中,網(wǎng)頁文字內(nèi)容,關(guān)鍵詞出現(xiàn)的位置、字體、顏色、加粗、斜體等相關(guān)信息都有相應(yīng)記錄。3.搜索詞處理用戶在搜索引擎界面輸入關(guān)鍵詞,單擊“搜索”按鈕后,搜索引擎程序即對搜索詞進(jìn)行處理,如中文特有的分詞處理,去除停止詞,判斷是否需要啟動(dòng)整合搜索,判斷是否有拼寫錯(cuò)誤或錯(cuò)別字等情況。搜索詞的處理必須十分快速。4.排序?qū)λ阉髟~處理后,搜索引擎程序便開始工作,從索引數(shù)據(jù)庫中找出所有包含搜索詞的網(wǎng)頁,并且

5、根據(jù)排名算法計(jì)算出哪些網(wǎng)頁應(yīng)該排在前面,然后按照一定格式返回到“搜索”頁面。再好的搜索引擎也無法與人相比,這就是為什么網(wǎng)站要進(jìn)行搜索引擎優(yōu)化。沒有SEO的幫助,搜索引擎常常并不能正確的返回最相關(guān)、最權(quán)威、最有用的信息。搜索引擎未來展望隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)上可以搜尋的網(wǎng)頁變得愈來愈多,而網(wǎng)頁內(nèi)容的質(zhì)素亦變得良莠不齊,沒有保證。所以,未來的搜索引擎將會(huì)朝著知識(shí)型搜索引擎的方向發(fā)展,期以為搜尋者提供更準(zhǔn)確及適用的資料。目前,網(wǎng)上的百科全書如雨

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論