版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、搜索引擎原理概述搜索引擎,通常指的是收集了因特網(wǎng)上幾千萬到幾十億個(gè)網(wǎng)頁并對(duì)網(wǎng)頁中的每一個(gè)詞(即關(guān)鍵詞)進(jìn)行索引,建立索引數(shù)據(jù)庫的全文搜索引擎。當(dāng)用戶查找某個(gè)關(guān)鍵詞的時(shí)候,所有在頁面內(nèi)容中包含了該關(guān)鍵詞的網(wǎng)頁都將作為搜索結(jié)果被搜出來。在經(jīng)過復(fù)雜的算法進(jìn)行排序后,這些結(jié)果將按照與搜索關(guān)鍵詞的相關(guān)度高低,依次排列。[編輯本段]搜索引擎結(jié)構(gòu)劃分搜索引擎的基本上分為四個(gè)步驟:1.爬行和抓取搜索引擎派出一個(gè)能夠在網(wǎng)上發(fā)現(xiàn)新網(wǎng)頁并抓文件的程序,這個(gè)程
2、序通常稱之為蜘蛛。搜索引擎從已知的數(shù)據(jù)庫出發(fā),就像正常用戶的瀏覽器一樣訪問這些網(wǎng)頁并抓取文件。搜索引擎會(huì)跟蹤網(wǎng)頁中的鏈接,訪問更多的網(wǎng)頁,這個(gè)過程就叫爬行。這些新的網(wǎng)址會(huì)被存入數(shù)據(jù)庫等待抓取。所以跟蹤網(wǎng)頁鏈接是搜索引擎蜘蛛發(fā)現(xiàn)新網(wǎng)址的最基本的方法,所以反向鏈接成為搜索引擎優(yōu)化的最基本因素之一。沒有反向鏈接,搜索引擎連頁面都發(fā)現(xiàn)不了,就跟談不上排名了。搜索引擎抓取的頁面文件與用戶瀏覽器得到的完全一樣,抓取的文件存入數(shù)據(jù)庫。2.索引蜘蛛抓取
3、的頁面文件分解、分析,并以巨大表格的形式存入數(shù)據(jù)庫,這個(gè)過程既是索引(index).在索引數(shù)據(jù)庫中,網(wǎng)頁文字內(nèi)容,關(guān)鍵詞出現(xiàn)的位置、字體、顏色、加粗、斜體等相關(guān)信息都有相應(yīng)記錄。3.搜索詞處理用戶在搜索引擎界面輸入關(guān)鍵詞,單擊“搜索”按鈕后,搜索引擎程序即對(duì)搜索詞進(jìn)行處理,如中文特有的分詞處理,去除停止詞,判斷是否需要啟動(dòng)整合搜索,判斷是否有拼寫錯(cuò)誤或錯(cuò)別字等情況。搜索詞的處理必須十分快速。4.排序?qū)λ阉髟~處理后,搜索引擎程序便開始工作
4、,從索引數(shù)據(jù)庫中找出所有包含搜索詞的網(wǎng)頁,并且根據(jù)排名算法計(jì)算出哪些網(wǎng)頁應(yīng)該排在前面,然后按照一定格式返回到“搜索”頁面。再好的搜索引擎也無法與人相比,這就是為什么網(wǎng)站要進(jìn)行搜索引擎優(yōu)化。沒有SEO的幫助,搜索引擎常常并不能正確的返回最相關(guān)、最權(quán)威、最有用的信息。[編輯本段]搜索引擎數(shù)據(jù)結(jié)構(gòu)搜索引擎的核心數(shù)據(jù)結(jié)構(gòu)為倒排文件(也稱倒排索引),倒排索引是指用記錄的非主屬性值(也叫副鍵)來查找記錄而組織的文件叫倒排文件,即次索引。倒排文件中包
5、括了所有副鍵值,并列出了與之有關(guān)的所有記錄主鍵值,主要用于復(fù)雜查詢。與傳統(tǒng)的SQL查詢不同,在搜索引擎收集完數(shù)據(jù)的預(yù)處理階段,搜索引擎往往需要一種高效的數(shù)據(jù)結(jié)構(gòu)來對(duì)外提供檢索服務(wù)。而現(xiàn)行最有效的數(shù)據(jù)結(jié)構(gòu)就是“倒排文件”。倒排文件簡單一點(diǎn)可以定義為“用文檔的關(guān)鍵詞作為索引,文檔作為索引目標(biāo)的一種結(jié)構(gòu)(類似于普通書籍中,索引是關(guān)鍵詞,書的頁面是索引目標(biāo))。搜索引擎原理收藏在浩如煙海的Inter上,特別是其上的Web(WldWideWeb萬維
6、網(wǎng))上,不會(huì)搜索,就不會(huì)上網(wǎng)。網(wǎng)蟲朋友們,你了解搜索引擎嗎?它們是怎么工作的?你都使用哪些搜索引擎?今天我就和大家聊聊搜索引擎的話題。一、搜索引擎的分類獲得網(wǎng)站網(wǎng)頁資料,能夠建立數(shù)據(jù)庫并提供查詢的系統(tǒng),我們都可以把它叫做搜索引擎。按照工作原理的不同,可以把它們分為兩個(gè)基本類別:全文搜索引擎(FullTextSearchEngine)和分類目錄Directy)。全文搜索引擎的數(shù)據(jù)庫是依靠一個(gè)叫“網(wǎng)絡(luò)機(jī)器人(Spider)”或叫“網(wǎng)絡(luò)蜘蛛(
7、crawlers)”的軟件,通過網(wǎng)絡(luò)上的各種鏈接自動(dòng)獲取大量網(wǎng)頁信息內(nèi)容,并按以定的規(guī)則分析整理形成的。Google、百度都是比較典型的全文搜索引擎系統(tǒng)。專門的編輯人員,負(fù)責(zé)收集網(wǎng)站的信息。隨著收錄站點(diǎn)的增多,現(xiàn)在一般都是由站點(diǎn)管理者遞交自己的網(wǎng)站信息給分類目錄,然后由分類目錄的編輯人員審核遞交的網(wǎng)站,以決定是否收錄該站點(diǎn)。如果該站點(diǎn)審核通過,分類目錄的編輯人員還需要分析該站點(diǎn)的內(nèi)容,并將該站點(diǎn)放在相應(yīng)的類別和目錄中。所有這些收錄的站點(diǎn)
8、同樣被存放在一個(gè)“索引數(shù)據(jù)庫”中。用戶在查詢信息時(shí),可以選擇按照關(guān)鍵詞搜索,也可按分類目錄逐層查找。如以關(guān)鍵詞搜索,返回的結(jié)果跟全文搜索引擎一樣,也是根據(jù)信息關(guān)聯(lián)程度排列網(wǎng)站。需要注意的是,分類目錄的關(guān)鍵詞查詢只能在網(wǎng)站的名稱、網(wǎng)址、簡介等內(nèi)容中進(jìn)行,它的查詢結(jié)果也只是被收錄網(wǎng)站首頁的URL地址,而不是具體的頁面。分類目錄就像一個(gè)電話號(hào)碼薄一樣,按照各個(gè)網(wǎng)站的性質(zhì),把其網(wǎng)址分門別類排在一起,大類下面套著小類,一直到各個(gè)網(wǎng)站的詳細(xì)地址,一
9、般還會(huì)提供各個(gè)網(wǎng)站的內(nèi)容簡介,用戶不使用關(guān)鍵詞也可進(jìn)行查詢,只要找到相關(guān)目錄,就完全可以找到相關(guān)的網(wǎng)站(注意:是相關(guān)的網(wǎng)站,而不是這個(gè)網(wǎng)站上某個(gè)網(wǎng)頁的內(nèi)容,某一目錄中網(wǎng)站的排名一般是按照標(biāo)題字母的先后順序或者收錄的時(shí)間順序決定的)。三、搜索引擎的發(fā)展趨勢(shì)。一個(gè)好的搜索引擎,不僅數(shù)據(jù)庫容量要大,更新頻率、檢索速度要快,支持對(duì)多語言的搜索,而且隨著數(shù)據(jù)庫容量的不斷膨脹,還要能從龐大的資料庫中精確地找到正確的資料。⒈提高搜索引擎對(duì)用戶檢索提問
10、的理解。為了提高搜索引擎對(duì)用戶檢索提問的理解,就必須有一個(gè)好的檢索提問語言。為了克服關(guān)鍵詞檢索和目錄查詢的缺點(diǎn),現(xiàn)在已經(jīng)出現(xiàn)了自然語言智能答詢。用戶可以輸入簡單的疑問句,比如“如何能殺死計(jì)算機(jī)中的病毒”,搜索引擎在對(duì)提問進(jìn)行結(jié)構(gòu)和內(nèi)容的分析之后,或直接給出提問的答案,或引導(dǎo)用戶從幾個(gè)可選擇的問題中進(jìn)行再選擇。自然語言的優(yōu)勢(shì)在于,一是使網(wǎng)絡(luò)交流更加人性化,二是使查詢變得更加方便、直接、有效。就以上面的例子來講,如果用關(guān)鍵詞查詢,多半人會(huì)用
11、“病毒”這個(gè)詞來檢索,結(jié)果中必然會(huì)包括各類病毒的介紹,病毒是怎樣產(chǎn)生的等等許多無用信息,而用“如何能殺死計(jì)算機(jī)中的病毒”檢索,搜索引擎會(huì)將怎樣殺死病毒的信息提供給用戶,提高了檢索效率。⒉垂直主題搜索引擎有著極大的發(fā)展空間。網(wǎng)上的信息浩如煙海,網(wǎng)絡(luò)資源以驚人的速度增長,一個(gè)搜索引擎很難收集全所有主題的網(wǎng)絡(luò)信息,即使信息主題收集得比較全面,由于主題范圍太寬,很難將各主題都做得精確而又專業(yè),使得檢索結(jié)果垃圾太多。這樣以來,垂直主題的搜索引擎以
12、其高度的目標(biāo)化和專業(yè)化在各類搜索引擎中占據(jù)了一席之地。目前,一些主要的搜索引擎,都提供了新聞、Mp3、圖片、Flash等的搜索,加強(qiáng)了檢索的針對(duì)性。⒊元搜索引擎,能夠提供全面且較為準(zhǔn)確的查詢結(jié)果?,F(xiàn)在的許多搜索引擎,其收集信息的范圍、索引方法、排名規(guī)則等都各不相同,每個(gè)搜索引擎平均只能涉及到整個(gè)Web資源的30-50%,這樣導(dǎo)致同一個(gè)搜索請(qǐng)求在不同搜索引擎中獲得的查詢結(jié)果的重復(fù)率不足34%,而每一個(gè)搜索引擎的查準(zhǔn)率不到45%。元搜索引擎
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
評(píng)論
0/150
提交評(píng)論