第七章網(wǎng)上信息檢索_第1頁
已閱讀1頁,還剩22頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第七章網(wǎng)上信息檢索,7.1 搜索引擎,搜索引擎的應(yīng)用現(xiàn)狀從用戶使用的角度,國外的調(diào)查發(fā)現(xiàn): 網(wǎng)上搜索信息的人很少考慮如何找到他們所需要的 信息,因此搜索信息時象動物獵食般盲目;只有18%的用戶表示總能在網(wǎng)上搜索到需要的信 息。68%的用戶說他們對搜索引擎很失望;平均每個搜搜者在12分鐘的徒勞搜索后就感到惱火 和受挫。46%的人只會用同一個關(guān)鍵詞搜啊搜啊,而且是在 同一個搜索引擎。,國外的應(yīng)用狀況,那些每周平均花

2、5個小時以上時間上網(wǎng)的人,將其上網(wǎng)時間的71%都花在了搜索引擎上;人機(jī)界面高手nielsen(google的設(shè)計者)研究表明:略超過1/2的互聯(lián)網(wǎng)用戶屬于search-dominant, 約1/5用戶屬于link-dominant,其它用戶的搜索傾向?qū)儆诨旌闲袨樾汀earch-dominant在到達(dá)一個網(wǎng)站后直接就奔向搜索按鈕,他們對瀏覽網(wǎng)站不感興趣,他們有明確的目的,傾向于以最快速度找到信息。相反,link-domina

3、nt喜歡點擊瀏覽一個網(wǎng)站,即使他們想找特殊信息時也是這樣,只有在他們用點擊超鏈的方法已經(jīng)實在找不到了,才會想起搜索按鈕。,搜索引擎的分類及原理,按照信息搜集方法和服務(wù)提供方式的不同,搜索引擎系統(tǒng)可以分為三大類:1.機(jī)器人搜索引擎:由一個稱為蜘蛛(Spider)的機(jī)器人程序以某種策略自動地在互聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)信息,由索引器為搜集到的信息建立索引,由檢索器根據(jù)用戶的查詢輸入檢索索引庫,并將查詢結(jié)果返回給用戶。服務(wù)方式是面向網(wǎng)頁的全文檢索服

4、務(wù)。該類搜索引擎的優(yōu)點是信息量大、更新及時、毋需人工干預(yù),缺點是返回信息過多,有很多無關(guān)信息,用戶必須從結(jié)果中進(jìn)行篩選。這類搜索引擎的代表是:AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google;國內(nèi)代表為:"天網(wǎng)"、悠游、OpenFind等。,2.目錄式搜索引擎,以人工方式或半自動方式搜集信息,由編輯員查看信息之后,人工形成信息摘要,并

5、將信息置于事先確定的分類框架中。信息大多面向網(wǎng)站,提供目錄瀏覽服務(wù)和直接檢索服務(wù)。該類搜索引擎因為加入了人的智能,所以信息準(zhǔn)確、導(dǎo)航質(zhì)量高,缺點是需要人工介入、維護(hù)量大、信息量少、信息更新不及時。這類搜索引擎的代表是:Yahoo、LookSmart、Open Directory、Go Guide等。,3.元搜索引擎,這類搜索引擎沒有自己的數(shù)據(jù),而是將用戶的查詢請求同時向多個搜索引擎遞交,將返回的結(jié)果進(jìn)行重復(fù)排除、重新排序等處理后,作為自

6、己的結(jié)果返回給用戶。服務(wù)方式為面向網(wǎng)頁的全文檢索。這類搜索引擎的優(yōu)點是返回結(jié)果的信息量更大、更全,缺點是不能夠充分使用所使用搜索引擎的功能,用戶需要做更多的篩選。這類搜索引擎的代表是WebCrawler、InfoMarket等。,主要技術(shù),一個搜索引擎由搜索器、索引器、檢索器和用戶接口等四個部分組成。搜索器 搜索器的功能是在互聯(lián)網(wǎng)中漫游,發(fā)現(xiàn)和搜集信息。它常常是一個計算機(jī)程序,日夜不停地運(yùn)行。它要盡可能多、盡可能快地搜集各種類型

7、的新信息,同時因為互聯(lián)網(wǎng)上的信息更新很快,所以還要定期更新已經(jīng)搜集過的舊信息,以避免死連接和無效連接。,索引器,2.索引器–索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項,用于表示文檔以及生成文檔庫的索引表。–索引項有客觀索引項和內(nèi)容索引項兩種:客觀項與文檔的語意內(nèi)容無關(guān),如作者名、URL、更新時間、編碼、長度、鏈接流行度(Link Popularity)等等;內(nèi)容索引項是用來反映文檔內(nèi)容的,如關(guān)鍵詞及其權(quán)重、短語、單字等等

8、。內(nèi)容索引項可以分為單索引項和多索引項(或稱短語索引項)兩種。單索引項對于英文來講是英語單詞,比較容易提取,因為單詞之間有天然的分隔符(空格);對于中文等連續(xù)書寫的語言,必須進(jìn)行詞語的切分。,檢索器和用戶接口,3.檢索器 檢索器的功能是根據(jù)用戶的查詢在索引庫中快速檢出文檔,進(jìn)行文檔與查詢的相關(guān)度評價,對將要輸出的結(jié)果進(jìn)行排序,并實現(xiàn)某種用戶相關(guān)性反饋機(jī)制。 檢索器常用的信息檢索模型有集合理論模型、代數(shù)模型、概率模型和混合

9、模型四種。4.用戶接口 用戶接口的作用是輸入用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機(jī)制。主要的目的是方便用戶使用搜索引擎,高效率、多方式地從搜索引擎中得到有效、及時的信息。用戶接口的設(shè)計和實現(xiàn)使用人機(jī)交互的理論和方法,以充分適應(yīng)人類的思維習(xí)慣,值得推薦的幾個中文搜索引擎,全文搜索–衡量搜索引擎的指標(biāo):?查全率?查準(zhǔn)率?速度?哪個重要?–Google: http://www.google.com(需要出國訪問權(quán)限

10、)?新浪使用了它的全文搜索引擎服務(wù)?說明:這是2004年4月的情形,各大門戶網(wǎng)站使用的搜索引擎服務(wù)經(jīng)常會變化,留意Powered by…–百度:http://www.baidu.com?21CN使用了它的全文搜索引擎服務(wù)–中國搜索(原來的慧聰搜索)http://www.zhongsou.com?網(wǎng)易、搜狐、263使用了它的搜索引擎。–北大天網(wǎng):http://e.pku.edu.cn?大量教育網(wǎng)內(nèi)的資源,提供FTP搜索–

11、幾大門戶網(wǎng)站也有自己的搜索引擎,有時也能發(fā)揮作用。,推薦的搜索引擎,網(wǎng)站分類目錄搜索–新浪:其網(wǎng)站搜索最好–搜狐:網(wǎng)站的分類目錄整理最好,最適合于瀏覽–網(wǎng)易:開放式目錄,有許多網(wǎng)上高手加盟–中文Yahoo–另類:網(wǎng)絡(luò)實名http://www.3721.com?新浪圖片搜索: pic.sina.com.cn–新視科技:www.VisionNext.com.cn,提供多媒體搜索?找地圖–城市通:www.chinaquest

12、.com–圖行天下:www.go2map.com.cn,使用Google進(jìn)行搜索,Google簡介–Google是一個搜索引擎,由兩個斯坦福大學(xué)博士生Larry Page與Sergey Brin于1998年9月發(fā)明,Google Inc. 于1999年創(chuàng)立。2000年7月份,Google替代Inktomi成為Yahoo公司的搜索引擎,同年9月份,Google成為中國網(wǎng)易公司的搜索引擎。1998年至今,Google已經(jīng)獲得30多項業(yè)界

13、大獎。–Google支持多達(dá)132種語言,包括簡體中文和繁體中文;–Google網(wǎng)站只提供搜索引擎功能,沒有花里胡哨的累贅;–Google速度極快,據(jù)說有10000多臺服務(wù)器,200多條T3級寬帶;–Google的專利網(wǎng)頁級別技術(shù)PageRank能夠提供高命中率的搜索結(jié)果;–Google智能化的“手氣不錯”功能,提供可能最符合要求的網(wǎng)站;–Google的“網(wǎng)頁快照”功能,能從GOOGLE服務(wù)器里直接取出緩存的網(wǎng)頁。,文本搜索

14、,文本搜索–目前Google已經(jīng)收集索引了40多億張網(wǎng)頁–使用單個關(guān)鍵詞進(jìn)行搜索?理解什么是“關(guān)鍵詞”,跟普通意義上的關(guān)鍵詞不同。?想象目標(biāo)網(wǎng)頁上應(yīng)該有的若干個詞。?網(wǎng)頁的排名問題–使用兩個及兩個以上關(guān)鍵詞進(jìn)行搜索?直接輸入多個關(guān)鍵詞,關(guān)鍵詞之間用空格,這樣就表示“AND”關(guān)系;?用減號“-”表示“非”,用于表示要求搜索結(jié)果不包含某些特定信息;?Google的幫助網(wǎng)頁上說,不支持OR關(guān)系,實際上是支持得不好;–使用一

15、句話進(jìn)行搜索–加上雙引號。這在查找名言警句或?qū)S忻~時顯得格外有用。?Google對網(wǎng)絡(luò)上常見得英文單詞及一些標(biāo)點符號作忽略處理,圖象搜索,目前Google可搜索8.8億張圖片,自稱為“因特網(wǎng)上最好用的圖像搜索工具”–Images.google.com或點擊Google主頁上的“圖象搜索”鏈接。–目前的圖象搜索主要是基于文件名的搜索,不是基于圖象內(nèi)容的。?用法:–關(guān)鍵詞的輸入方法同文字搜索,不過搜索圖象一般不會用太長、太復(fù)雜

16、的關(guān)鍵詞。–圖象搜索中,使用英文作關(guān)鍵詞可以搜到許多準(zhǔn)確的結(jié)果,使用中文,效果較差,但有時Google會自動轉(zhuǎn)換為英文或中文的拼音去搜索(有時欠穩(wěn)定,其他內(nèi)容的搜索也有此現(xiàn)象)。–可以指定圖片文件的類型:JPG或GIF ?如panda filetype:jpg,搜索特殊格式的文件,目前可搜索的文件格式:–DOC、PPT、XLS、RTF、PS、TXT、Lotus文件;–PDF格式–最精彩的,可搜索Flash文件:SWF文件?

17、方法:–關(guān)鍵詞filetype:***–搜索包含關(guān)鍵詞的文檔(但又不盡然)。搜索到后,可點擊打開,也可右鍵快捷菜單用“另存為”。對于Office文檔,還可以用HTML方式打開,以避免病毒的襲擊。,其他特殊的搜索,搜索的關(guān)鍵詞包含在URL鏈接中–Inurl:mp3 yesterday once more–可用于搜索MIDI、MP3等文件?搜索的關(guān)鍵詞包含在網(wǎng)頁標(biāo)題中–Intitle:FoshanUniversity?搜索指定

18、的網(wǎng)站范圍–在圖象搜索中,用:Panda site:edu.cn?搜索有多少鏈接到某個地址的網(wǎng)頁–Link:fosu.edu.cn,Google的高級搜索,Google的高級搜索可實現(xiàn)前面所說的各種特殊的搜索,免除用戶記憶語法結(jié)構(gòu)。–在Google的網(wǎng)頁上,點擊“高級搜索”即可。–推薦大家使用英文版的Google,以及英文版的幫助文檔。http://www.google.com/about.html,天網(wǎng)的FTP搜索,地址:h

19、ttp://bingle.pku.edu.cn–缺點:死鏈接太多,許多是學(xué)生的服務(wù)器,運(yùn)行不穩(wěn)定?簡單搜索–輸入要查詢的文件名,可以包含“*”號(通配所有字符)、“?”號(通配一個字符)、空格(表示幾個查詢的并)。?按類別搜索文件–點擊“分類搜索”下的各種類型,如“圖像”、“聲音”、“視頻”、“壓縮”、“文檔”、“程序”、“目錄”、“源代碼”,則搜索引擎在指定的類型里搜索文件。比如點擊“圖象”,則在所有的圖象文件里查找與匹配串

20、相符的文件。?使用快捷方式(已經(jīng)做好的分類)–天網(wǎng)搜索引擎為用戶常用的搜索提供了快捷方式,使用起來極為簡單,直接點擊快捷方式下所要的內(nèi)容即可。,天網(wǎng)FTP,FTP復(fù)雜搜索:–從FTP檢索頁面里點擊“FTP復(fù)雜選項”進(jìn)入“FTP復(fù)雜搜索”頁面。在復(fù)雜搜索頁面里,如果沒有填寫或者沒有選擇,表示使用缺省值。–文件大小過濾:–文件日期過濾:–頁面顯示個數(shù):–文件類型:–限定搜索的站點范圍?結(jié)果顯示:–每個結(jié)果前的圖標(biāo)是該文件

21、的文件類型圖片,表示“圖像”、“聲音”、“視頻”、“壓縮”、“文檔”、“程序”、“目錄”、“源代碼”或者表示搜索引擎系統(tǒng)未定義的文件類型;–圖標(biāo)后是文件名,點擊可以打開文件;文件名后是文件的創(chuàng)建時間和文件的大?。花C文件名下方是該文件所在的目錄,點擊可以在新的窗口里打開該目錄。,關(guān)于軟件的搜索,軟件下載網(wǎng)站主要有三類:?大型軟件下載網(wǎng)站–主要提供普通的免費和共享軟件。如:www.skycn.com?軟件主頁–一些最新版本的共享

22、軟件以及軟件的補(bǔ)丁,或者軟件公司推出的免費軟件。如:Microsfot、Adobe、Lotus等公司的站點?個人主頁下載–可以找到正式網(wǎng)站找不到的內(nèi)容。?在教育網(wǎng)內(nèi),許多情況下可以用天網(wǎng)的FTP搜索。?如果用搜索引擎,則選擇關(guān)鍵詞很重要。通常可用以下關(guān)鍵詞:軟件名 下載版本 cdkey 軟件大小,使用網(wǎng)絡(luò)實名,登陸www.3721.com, 為自己的電腦開啟網(wǎng)絡(luò)實名功能。–“3721網(wǎng)絡(luò)實名”是新一代的網(wǎng)絡(luò)訪問技術(shù),

23、它具有十大功能,其中智能推測、拼音使用等功能可以幫助我們搜索那些名稱不確切的網(wǎng)址。–訪問新浪,只要在地址欄打入“新浪”或“xinlang”即可–例如:在瀏覽器地址欄中輸入上市公司股票代碼,就可以獲取實時行情,優(yōu)秀的電子信息資源,查找論文等,就不需要使用普通的搜索引擎了。?中國期刊網(wǎng)(CNKI):佛大鏡像202.192.172.22?萬方數(shù)據(jù):http://www.wanfangdata.com.cn/?各個專業(yè)都有自己的專業(yè)信

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論