版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、當(dāng)前互聯(lián)網(wǎng)已經(jīng)成為人們獲取信息和進行事務(wù)活動的一個重要平臺。隨著互聯(lián)網(wǎng)上各種數(shù)據(jù)和應(yīng)用資源的快速增長,搜索引擎成為人們從海量的網(wǎng)上資源中快速準確地獲取信息的必要工具。用戶通過提交查詢到搜索引擎表達他們的信息需求,搜索引擎則根據(jù)對查詢的分析提供給用戶需要的檢索結(jié)果,查詢是用戶和搜索引擎之間必要的信息傳遞方式。為了使搜索引擎能夠準確地理解查詢中表達的信息需求,則需要開展查詢自動分析處理技術(shù)的研究。
命名實體查詢是一類重要的查詢,在
2、搜索引擎查詢中占有很高的比例,并且具有一些自身特點,研究命名實體查詢的相關(guān)處理技術(shù)能夠使搜索引擎更好地分析用戶的檢索意圖,提供給用戶準確的檢索結(jié)果,改善用戶的檢索體驗。命名實體查詢處理技術(shù)通常包括獲取查詢中的語義片段,識別出查詢中包含的實體,分析命名實體查詢的檢索意圖等方面的研究。據(jù)此,本文從以下幾個方面開展了命名實體查詢處理的相關(guān)技術(shù)研究。
1、基于單語詞對齊模型的無指導(dǎo)查詢自動切分。查詢切分是一項基礎(chǔ)和必要的查詢處理工作,
3、是將查詢從字符序列切分出詞匯或短語等語義單元的過程。由于查詢中出現(xiàn)的詞匯規(guī)模巨大并且包含許多不規(guī)范的詞匯,有指導(dǎo)的方法需要人工標注大量的訓(xùn)練語料,使其不能很好地適應(yīng)查詢切分的任務(wù)。本文提出了一種基于單語詞對齊模型的無指導(dǎo)查詢切分方法。該方法僅利用查詢?nèi)罩咀詣佑?xùn)練查詢切分模型,并在模型中能夠結(jié)合字符的共現(xiàn)信息、位置信息以及繁殖度信息,獲得了較好的查詢切分效果。本文在查詢詞項切分的基礎(chǔ)上進一步對查詢進行了層次化切分,將查詢表示為切分片段的樹
4、狀結(jié)構(gòu),查詢層次化切分結(jié)果可以表示出查詢中哪些切分片段之間的關(guān)系更為緊密。實驗結(jié)果顯示與已有的切分方法相比,本文方法獲得了更好的查詢切分效果。
2、基于圖上隨機游走模型的查詢?nèi)罩局忻麑嶓w挖掘。查詢?nèi)罩臼且粋€包含大量命名實體的數(shù)據(jù)資源。從查詢?nèi)罩局型诰虺龅拿麑嶓w,更加符合用戶構(gòu)造查詢時使用命名實體的習(xí)慣,并且查詢?nèi)罩緯粩喔?其中記錄了一些新出現(xiàn)的實體名稱,這使得研究查詢?nèi)罩局忻麑嶓w挖掘?qū)τ谒阉饕嫣幚砻麑嶓w查詢更具有
5、實際意義。本文中采用了一種弱指導(dǎo)的方法進行命名實體挖掘,其中利用了少量的屬于目標類別的命名實體名稱作為種子,使用從查詢?nèi)罩局谐槿〕龅暮蜻x命名實體、查詢中命名實體的上下文模板以及用戶點擊URL構(gòu)造三分圖,采用圖上的隨機游走算法獲取目標類別的命名實體。實驗結(jié)果顯示,本文方法能夠有效結(jié)合查詢?nèi)罩局械拿麑嶓w相關(guān)信息,提高查詢?nèi)罩局蝎@取命名實體的準確率。
3、基于在線百科的命名實體同義屬性短語獲取。在命名實體的屬性短語中,描述實體同一
6、屬性的不同表達形式的短語,被稱為同義屬性短語。獲取實體的同義屬性短語對命名實體查詢的檢索意圖分析將有所幫助。在命名實體查詢中,用戶通常使用屬性短語構(gòu)建查詢,表達對實體屬性值的需求意圖。本文從在線百科中獲取命名實體的屬性短語,并采用了分類的框架結(jié)合了多種特征去識別出其中的同義屬性短語。據(jù)我們了解,本文方法是首次提出利用在線百科獲取同義屬性短語的研究。實驗結(jié)果表明,在線百科是獲取實體同義屬性短語的有效資源,并且本文提出的方法能夠有效地獲取大
7、量的同義屬性短語。
4、命名實體查詢的檢索意圖識別。在本文中包括基于分類的查詢檢索意圖識別和更細粒度的基于查詢檢索模式的檢索意圖識別兩個部分。查詢意圖分類可以限制檢索結(jié)果的類別空間,提高檢索準確率。在查詢意圖分類中,采用融合多種資源信息的方法進行分類,其中根據(jù)對查詢文本,查詢?nèi)罩疽约盎ヂ?lián)網(wǎng)檢索結(jié)果的分析,獲取了有效的查詢意圖分類特征。本文進一步在查詢意圖分類模型識別出的信息類和事務(wù)類命名實體查詢中,抽取用戶經(jīng)常使用的查詢檢索模
8、式,并將具有相似檢索意圖的查詢檢索模式進行聚類。查詢檢索模式可以用來匹配用戶提交的查詢,幫助搜索引擎準確地分析查詢的檢索意圖。本文中采用了基于圖模型方法和基于相似度方法級聯(lián)地進行命名實體查詢的檢索模式獲取。實驗結(jié)果顯示本文方法在多個實體類別上均有效地獲取了查詢檢索模式。
綜上所述,本文開展了命名實體查詢處理一些關(guān)鍵技術(shù)的研究工作,其中有些查詢處理技術(shù)出于更廣泛適應(yīng)性的考慮,其面向的對象不僅是命名實體查詢,也可以應(yīng)用到其他查詢上
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 搜索引擎相關(guān)技術(shù)研究.pdf
- 搜索引擎中索引技術(shù)研究與實現(xiàn).pdf
- 搜索引擎中查詢擴展的研究.pdf
- 網(wǎng)絡(luò)搜索引擎的相關(guān)技術(shù)研究.pdf
- 個性化智能搜索引擎中查詢擴展技術(shù)研究.pdf
- 搜索引擎中的查詢擴展方法研究.pdf
- 搜索引擎檢索技術(shù)研究.pdf
- 垂直搜索引擎主要技術(shù)研究.pdf
- 搜索引擎日志挖掘技術(shù)研究.pdf
- 搜索引擎中的信息抽取技術(shù)研究.pdf
- 搜索引擎中的索引壓縮和查詢問題研究.pdf
- 搜索引擎分類展示技術(shù)研究.pdf
- 民航主題搜索引擎的索引技術(shù)研究.pdf
- 搜索引擎理論與技術(shù)研究.pdf
- 搜索引擎中文分詞技術(shù)研究.pdf
- 搜索引擎系統(tǒng)中Web挖掘技術(shù)研究.pdf
- XML搜索引擎中索引技術(shù)的研究.pdf
- 垂直搜索引擎關(guān)鍵技術(shù)研究
- 傳統(tǒng)搜索引擎與智能搜索引擎比較研究.pdf
- 主題搜索引擎信息抽取技術(shù)研究.pdf
評論
0/150
提交評論