基于相關(guān)反饋的個(gè)性化信息檢索技術(shù)研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩119頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、隨著信息技術(shù)的迅速發(fā)展和互聯(lián)網(wǎng)規(guī)模的不斷擴(kuò)大,互聯(lián)網(wǎng)已經(jīng)成為了全球最大、應(yīng)用最廣泛的信息庫(kù),如何有效檢索這些海量信息成為當(dāng)前研究的重要課題,因此信息檢索(Information Retrieval,IR)技術(shù)越來(lái)越受到人們的關(guān)注。搜索引擎(Search Engine,SE)是信息檢索技術(shù)在互聯(lián)網(wǎng)領(lǐng)域的實(shí)際應(yīng)用,目的是幫助用戶快速、準(zhǔn)確的在信息的海洋中找到自己需要的信息。目前,大部分搜索引擎廣泛采用的信息檢索技術(shù)無(wú)法滿足不同用戶背景、不同

2、查詢目的和不同檢索時(shí)期的查詢請(qǐng)求。個(gè)性化信息檢索因?yàn)榭梢韵蛴脩籼峁﹤€(gè)性化服務(wù),提高搜索引擎檢索結(jié)果的精度,成為搜索引擎技術(shù)的一個(gè)新的發(fā)展方向和研究熱點(diǎn)。
  個(gè)性化信息檢索需要有效地識(shí)別用戶興趣和偏好,并構(gòu)建用戶檔案(User Profile,UP)?;谟脩魹g覽行為和搜索歷史等用戶檔案信息的相關(guān)反饋技術(shù),由于不需要人工參與,并且可以收集到足夠多的用戶興趣和愛(ài)好信息,所以廣泛用于個(gè)性化信息檢索。
  本文主要研究基于相關(guān)反饋

3、的個(gè)性化信息檢索技術(shù)。首先,定量地分析哪些查詢將受益于個(gè)性化信息檢索,即預(yù)測(cè)查詢的個(gè)性化潛力。其次,針對(duì)個(gè)性化信息檢索中關(guān)鍵問(wèn)題,即如何處理動(dòng)態(tài)反饋信息和少量反饋信息,研究基于相關(guān)反饋的查詢優(yōu)化技術(shù)。再次,根據(jù)一個(gè)商業(yè)搜索引擎的查詢?nèi)罩?,建立評(píng)價(jià)個(gè)性化信息檢索的數(shù)據(jù)平臺(tái),并用于研究基于用戶檔案(User Profile,UP)的個(gè)性化信息檢索。最后,在構(gòu)建中文評(píng)測(cè)數(shù)據(jù)平臺(tái)時(shí),研究如何確定索引單元,重點(diǎn)研究分詞歧義對(duì)于信息檢索性能的影響,

4、并設(shè)計(jì)了新穎的混合索引。
  具體地說(shuō),本文包括以下四個(gè)方面的內(nèi)容:
  (1)大多數(shù)關(guān)于個(gè)性化信息檢索的研究都是針對(duì)所有查詢的,很少有研究試圖回答哪些查詢將受益于個(gè)性化信息檢索。把大規(guī)模人工知識(shí)庫(kù) Wikipedia作為額外的資源,用于預(yù)測(cè)查詢的個(gè)性化潛力。從Wikipedia中挖掘出語(yǔ)言學(xué)知識(shí),比如查詢歧義詞等。從Wikipedia中獲得的知識(shí)可以減小查詢?nèi)罩镜臄?shù)據(jù)稀疏問(wèn)題的影響,避免檢索結(jié)果的存儲(chǔ)空間。實(shí)驗(yàn)結(jié)果表明此方

5、法的有效性和可行性。
  (2)相關(guān)反饋是提高信息檢索系統(tǒng)性能的重要方法之一。在語(yǔ)言模型下,針對(duì)個(gè)性化信息檢索中關(guān)鍵問(wèn)題,即如何處理動(dòng)態(tài)反饋信息和少量反饋信息,比較現(xiàn)有相關(guān)反饋方法和提出新的相關(guān)反饋方法。在研究動(dòng)態(tài)反饋信息時(shí),比較四種典型基于正相關(guān)反饋的查詢優(yōu)化方法,研究基于正負(fù)反饋的查詢優(yōu)化方法,并嘗試一種新的查詢優(yōu)化方法,即線性雙邊模型,實(shí)驗(yàn)結(jié)果表明該模型的有效性。在研究少量反饋信息時(shí),嘗試相關(guān)反饋融合技術(shù)。在相關(guān)反饋融合中,

6、為尋求偽相關(guān)反饋不穩(wěn)定問(wèn)題的解決途徑,嘗試建立一個(gè)分類模型,預(yù)測(cè)偽相關(guān)反饋的性能。此方法充分利用多源特征,較準(zhǔn)確地預(yù)測(cè)偽相關(guān)反饋性能,而使原始查詢、直接反饋和偽相關(guān)反饋的融合具備靈活的適應(yīng)能力。在 TREC評(píng)測(cè)語(yǔ)料上的實(shí)驗(yàn)結(jié)果表明,此方法進(jìn)一步提高檢索效果。
  (3)個(gè)性化信息檢索研究中的一個(gè)重要問(wèn)題如何評(píng)價(jià)個(gè)性化信息檢索。根據(jù)一個(gè)商業(yè)搜索引擎的查詢?nèi)罩荆€(gè)性化信息檢索評(píng)價(jià)數(shù)據(jù)平臺(tái)。通過(guò)建立的數(shù)據(jù)平臺(tái),評(píng)價(jià)基于用戶檔案(Us

7、er Profile,UP)的個(gè)性化信息檢索。以前的研究使用基于用戶長(zhǎng)期搜索歷史的用戶檔案,提高檢索的精度。然而,關(guān)于用戶檔案的有效性,仍然存在很多問(wèn)題,其中一個(gè)關(guān)鍵問(wèn)題是用戶新提交的查詢很難受益于用戶檔案。一種解決方案是收集足夠的用戶檔案,使之可以滿足個(gè)性化信息檢索的需要。嘗試從查詢?nèi)罩局型诰蛴脩魴n案,主要思想是使用相似用戶或者相同查詢,抽取相關(guān)檔案擴(kuò)展當(dāng)前用戶檔案。實(shí)驗(yàn)結(jié)果顯示用戶檔案擴(kuò)展能提供更好的檢索結(jié)果。
  (4)在構(gòu)

8、建中文評(píng)測(cè)數(shù)據(jù)平臺(tái)時(shí),一個(gè)重要的問(wèn)題是如何確定索引單元。中文信息檢索中常用的索引單元是詞和二元文法。以詞為索引單元,會(huì)受到未登錄詞和分詞歧義的影響,而以二元文法為索引單元,會(huì)占用大量的存儲(chǔ)空間。因此,一些研究者提出使用混合索引,同時(shí)使用詞和二元文法。然而,這些研究只涉及未登錄詞的處理,而沒(méi)有考慮分詞歧義的影響。于是,重點(diǎn)研究分詞歧義對(duì)于信息檢索性能的影響,并設(shè)計(jì)了新穎的混合索引。在TREC數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果顯示,新穎的混合索引不但可以減

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論