基于主題的查詢意圖識別研究.pdf_第1頁
已閱讀1頁,還剩134頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、搜索引擎成為人們從互聯(lián)網(wǎng)上快速獲取信息的最主要途徑之一。當前的搜索引擎主要基于關(guān)鍵字匹配的搜索模式。然而用戶輸入的查詢往往較短,導致查詢具有多種語義或包含有多個子主題。基于關(guān)鍵字匹配的搜索方式僅關(guān)注于返回包含查詢關(guān)鍵字的文檔,而忽略了對查詢背后用戶真正的信息需求的識別與匹配。對于具有復(fù)雜信息需求的查詢,返回的搜索結(jié)果中包含有較多不符合用戶需要的噪聲文檔,無法充分滿足用戶需要。因此,開展查詢意圖識別相關(guān)技術(shù)的研究,深入理解用戶搜索意圖是十

2、分必要的。
  查詢意圖是介于關(guān)鍵字查詢與用戶真實信息需求之間的一種中間形式,用于表示用戶的搜索目的。已有的查詢意圖理解研究集中于導航類查詢的識別,即判斷查詢的搜索目的是否是找到某一特定的網(wǎng)站。然而導航類查詢僅占用戶輸入的所有查詢中較小的比例,更多的查詢屬于具有較為復(fù)雜的用戶需求的信息類查詢。針對信息類查詢進行全面、深層的查詢意圖理解是進一步提高搜索引擎性能的關(guān)鍵技術(shù)。本文專注于信息類查詢的意圖表示、識別與應(yīng)用。特別地,從查詢表層

3、字符信息上升到主題層面,采取不同的主題形式來形式化地表示查詢背后的搜索意圖,從多個角度理解查詢意圖,并基于查詢意圖提供新穎的搜索服務(wù)與搜索模式。本文的主要研究內(nèi)容可概括如下:
  (1)針對查詢歧義問題,以主題類別表示查詢意圖,將查詢映射到給定的主題類別體系中,即將查詢意圖識別歸結(jié)為查詢主題分類問題。利用主題體系的結(jié)構(gòu)特征,能夠有效地描述查詢意圖信息,有利于用戶信息需求空間結(jié)構(gòu)的構(gòu)建。本文提出一種基于用戶自動標注資源的查詢主題分類

4、方法:利用網(wǎng)絡(luò)上人工構(gòu)建的主題網(wǎng)站目錄對網(wǎng)頁URL進行主題標注;基于搜索引擎的查詢?nèi)罩九c搜索結(jié)果,構(gòu)建用戶查詢與URL的關(guān)聯(lián)關(guān)系;根據(jù)URL的主題自動地對查詢進行主題標注。這一過程僅需要很少的人工參與,卻可以獲得海量的有主題標注的查詢,基于有標注的查詢得以訓練基于統(tǒng)計的查詢分類器。方法改善了查詢分類缺少標注查詢的數(shù)據(jù)稀疏問題,不僅分類準確率高而且具有較高在線處理效率,可以應(yīng)用于多種查詢意圖識別相關(guān)的應(yīng)用場景。
  (2)針對查詢寬

5、泛問題,以一組查詢子主題表示查詢意圖。查詢子主題是指表達了用戶搜索意圖的字符串短語,如原始查詢?yōu)椤拔④洝?則“微軟研究院”或“微軟Surface”可認為是原始查詢的子主題,其中“研究院”和“Surface”稱作意圖短語表示用戶具體的信息需求。查詢子主題不依賴于預(yù)先指定的類別體系,能夠在更細致的層面對查詢意圖進行刻劃,是對查詢主題分類的補充。查詢子主題挖掘的關(guān)鍵問題在于如何獲得查詢子主題候選,以及如何將具有相似意圖的子主題候選有效地組織在

6、一起。本文提出基于聚類的查詢子主題挖掘方法,該方法主要分為4個步驟:查詢關(guān)鍵詞提取,查詢子主題候選抽取、查詢子主題候選聚類以及查詢子主題排序。本文分析了從各個信息源中抽取的查詢子主題候選的特點,并應(yīng)用適于任務(wù)需要的聚類算法。實驗表明,提出的方法獲得了比商業(yè)搜索引擎相關(guān)搜索更好的性能。
  (3)針對查詢意圖與用戶相關(guān)的問題,以用戶主題興趣表示查詢意圖,從用戶個人興趣的角度個性化地表示查詢意圖。提交同一查詢的不同用戶可能具有不同的查

7、詢意圖,為了更準確地判斷每一位用戶具體的查詢意圖需要考察用戶背景與興趣等個人信息。本文基于概率主題模型對用戶搜索歷史進行建模,建立用戶的主題興趣模型,將用戶查詢依據(jù)其與用戶歷史興趣的相關(guān)性映射到用戶主題興趣模型之中,實現(xiàn)個性化的查詢意圖識別。基于個性化的查詢意圖表示在語言模型的搜索框架下實現(xiàn)個性化搜索,為每一位用戶提供符合個人搜索意圖的、個性化搜索結(jié)果。據(jù)我們所知,這是首次將基于主題模型的用戶建模與個性化搜索相結(jié)合的工作。
  (

8、4)針對當前搜索引擎結(jié)果僅呈現(xiàn)文檔列表而非具體信息的不足,提出了基于查詢子主題的查詢摘要這一新穎的搜索模式,基于多個查詢子主題提供半結(jié)構(gòu)化的搜索結(jié)果,對查詢的多個搜索意圖進行概括描述,試圖直接返回滿足用戶需求的相關(guān)信息。本文具體定義了該任務(wù)的目標、框架和相應(yīng)的評價標準,提出了基于復(fù)合查詢的主動信息獲取與基于比較式信息挖掘的查詢子主題建模方法。該搜索模式可視為查詢子主題挖掘的具體應(yīng)用。
  綜上,本文針對具有復(fù)雜信息需求的信息類查詢

9、,從多個角度、以不同的主題方式表示和理解查詢意圖。查詢主題分類與查詢子主題挖掘相當于從全局用戶的視角來分析查詢意圖、構(gòu)建查詢需求結(jié)構(gòu)特征,基于用戶主題興趣表示則相當于根據(jù)用戶信息個性化地理解查詢意圖。將查詢意圖識別的結(jié)果成功地應(yīng)用于個性化搜索和基于查詢子主題的查詢摘要等新穎的搜索模式,充分說明對查詢意圖的深入理解,有利于提供更豐富的搜索接口和信息表示方案,提高搜索的質(zhì)量與用戶體驗。因此,基于主題的查詢意圖識別研究對搜索引擎具有以下的促進

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論