【畢業(yè)論文】信息檢索效率的探討_第1頁
已閱讀1頁,還剩5頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、16信息檢索效率的探討信息檢索效率的探討摘要摘要在信息技術(shù)迅速發(fā)展的推動下,傳統(tǒng)信息服務(wù)機(jī)構(gòu)和網(wǎng)絡(luò)信息服務(wù)運(yùn)營商逐步走上由信息服務(wù)向知識服務(wù)的轉(zhuǎn)型之路。在這種趨勢下,信息檢索也由過去單純的字符匹配逐步轉(zhuǎn)向面向內(nèi)容、基于知識的信息檢索。在這里簡單探討一下基于知識服務(wù)的信息檢索效率的基本概念和評價(jià)指標(biāo),剖析語義分析程度、信息模型、檢索方法和信息收錄范圍等主要影響因素,最后通過一個實(shí)例,對比分析說明知識服務(wù)將提高用戶信息檢索的效率。關(guān)鍵詞關(guān)鍵

2、詞:知識服務(wù);信息檢索:效率引言:進(jìn)入知識經(jīng)濟(jì)時(shí)代,知識管理、知識服務(wù)的理念得到廣泛認(rèn)同,信息檢索技術(shù)也由基于關(guān)鍵詞的信息檢索逐步轉(zhuǎn)向針對文章內(nèi)容的基于知識的信息檢索。后者不再是基于字符的機(jī)械匹配,而是更強(qiáng)調(diào)語義,模擬人類的思維方式,從語義和概念出發(fā),自動分析信息資源的語義信息,查找和發(fā)現(xiàn)具有相關(guān)知識單元的信息資源。較之前者,其檢索結(jié)果更準(zhǔn)確,更貼近用戶需求。信息檢索是將信息按照一定的規(guī)律組織起來,找到所需信息的過程和技術(shù),簡單的說,就

3、是信息的有序化識別和查找。信息檢索效率就是實(shí)施識別和查找過程的效率。信息檢索效率不僅是影響信息檢索工具價(jià)值的重要因素,也是評價(jià)信息檢索技術(shù)發(fā)展的重要指標(biāo)。1、基于知識服務(wù)的信息檢索效率的主要評價(jià)指標(biāo)有檢全率、檢準(zhǔn)率、友好性和檢索耗時(shí)。1.11.1、檢全率檢出相關(guān)信息的記錄數(shù)與系統(tǒng)中全部相關(guān)信息的記錄數(shù)之比。這里的相關(guān)信息是指具有語義聯(lián)系的信息。1.21.2、檢準(zhǔn)率是指檢出相關(guān)記錄數(shù)與檢出全部相關(guān)記錄數(shù)之比。1.31.3、友好性對檢索結(jié)果

4、按照相關(guān)度進(jìn)行排序,便于用戶率先查看相關(guān)度高的結(jié)果再看36息資源的相互關(guān)系,區(qū)分出核心信息資源和一般信息資源,使檢索過程優(yōu)先匹配核心信息資源,縮減平均匹配時(shí)間,提高檢索效率。因此,信息資源的語義分析程度是影響信息檢索效率的關(guān)鍵因素。2.22.2、檢索模型信息檢索模型是描述信息檢索過程中文檔表示,查詢及其相互關(guān)系的模型。信息檢索模型決定了查詢過程的效率。目前主要的信息檢索模型有布爾模型、向量空間模型、概念模型和基于本體的信息檢索模型。2.

5、2.12.2.1、布爾模型布爾模型是基于集合論和布爾代數(shù)的一種簡單模型,該模型為用戶提供了一個容易掌握的方式,輸入布爾表達(dá)式即可查詢。布爾模型定義索引術(shù)語只有兩種狀態(tài):匹配和不匹配,這就導(dǎo)致了索引術(shù)語的權(quán)重都表現(xiàn)為二元性,要么文檔完全匹配,要么文檔完全不匹配,布爾模型只能進(jìn)行精確檢索而不能進(jìn)行模糊檢索。2.2.22.2.2、向量模型向量空間模型是利用空間相似性來表示語義的相似性。文檔和查詢都用多次元向量表示,如果查詢向量和文檔向量距離最

6、近,那么這個文檔和這個查詢的相關(guān)度就最大,匹配程度就越高。向量空間模型解決了布爾模型索引術(shù)語權(quán)重二元性的缺點(diǎn),提供出符合某向量距離(即相關(guān)度數(shù)值)范圍內(nèi)的所有檢索結(jié)果,很大程度的提升了信息檢索的檢全率,但倘若相關(guān)度制定的過低,則會導(dǎo)致檢索結(jié)果數(shù)量過多,影響檢索效率。2.2.32.2.3、概率模型概率模型基于以下理論:給定一個查詢串q和集合中的文檔d,概率模型來估計(jì)用戶查詢串q與文檔d相關(guān)的概率。概率模型假設(shè)這種概率只由查詢串和文檔決定。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論