版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、得益于搜索引擎的推廣,我們可以隨時(shí)隨地從互聯(lián)網(wǎng)上獲取自己所需的信息。但是基于信息呈指數(shù)級(jí)的增長(zhǎng)速度和人們對(duì)搜索結(jié)果的更高要求,使得搜索引擎的智能化和個(gè)性化成為目前迫切需要解決的問(wèn)題。那么如何在浩瀚的知識(shí)海洋中快速、準(zhǔn)確地查找自己想要的那部分信息已成為新時(shí)代檢索技術(shù)所面臨的挑戰(zhàn)。
在傳統(tǒng)的信息檢索系統(tǒng)中,搜索引擎在描述用戶查詢與候選文檔之間的關(guān)系時(shí),往往僅考慮了詞與詞之間的字面匹配,并沒(méi)有充分利用詞語(yǔ)之間語(yǔ)義表達(dá)上的關(guān)聯(lián)信息,這
2、使得搜索結(jié)果與用戶所需差距較大。
本文從相關(guān)度出發(fā),先利用主題模型對(duì)文檔建模以抽取文檔的主題信息,然后利用主題信息計(jì)算查詢語(yǔ)句與候選文檔之間的相關(guān)度并根據(jù)相關(guān)度對(duì)文檔進(jìn)行排序,最后將排序結(jié)果呈現(xiàn)給用戶。然而,在上述過(guò)程中,主題模型表現(xiàn)出了自身的不足,一是主題模型中主題k值的選擇過(guò)于隨機(jī)化,這有可能因?yàn)椴磺‘?dāng)?shù)膋值選擇而使得主題與主題之間的區(qū)分度不夠明顯,造成主題之間的高重疊性;二是基于語(yǔ)料層的主題分布在某種程度上并不能完全代表
3、單篇文章的主題分布,這可能會(huì)造成文檔主題概率分布的高稀疏性,甚至?xí)袚p單篇文章的主題特征表示精度?;谝陨蟽牲c(diǎn),本文第三章和第四章分別對(duì)模型進(jìn)行改進(jìn),使其能夠最大程度地在信息檢索任務(wù)上發(fā)揮作用。
本文第三章提出了一種基于詞向量主題模型的文本檢索方法,該方法的主題建模部分充分考慮了主題之間的重疊關(guān)系和Gibbs抽樣的初始過(guò)程。首先,利用詞向量?jī)?yōu)秀的詞語(yǔ)語(yǔ)義表達(dá)能力對(duì)主題之間的關(guān)系進(jìn)行刻畫,進(jìn)而對(duì)主題模型中的k值進(jìn)行再確定,使主題
4、之間保持相對(duì)獨(dú)立。另外,利用詞向量對(duì)詞進(jìn)行聚合以改進(jìn)Gibbs抽樣過(guò)程中的詞語(yǔ)的初始主題分配。然后,利用確定的k值,我們對(duì)語(yǔ)料進(jìn)行主題建模,得出“文檔—主題”、“主題一詞”兩個(gè)多項(xiàng)式分布矩陣,進(jìn)而對(duì)矩陣進(jìn)行運(yùn)算得到“詞”對(duì)“文檔”的表征關(guān)系,這種“表征關(guān)系”在本文中被稱為“貢獻(xiàn)度”。在詞語(yǔ)貢獻(xiàn)度的基礎(chǔ)上,我們可以把查詢語(yǔ)句和候選文檔集之間語(yǔ)義關(guān)系的緊密程度用“數(shù)值”描述出來(lái)。最后,通過(guò)這種“數(shù)值”關(guān)系對(duì)候選文檔進(jìn)行排序,進(jìn)而將排序結(jié)果顯
5、示在用戶查詢界面上。
本文第四章提出了一種基于聚類主題模型的文本檢索方法,該方法是在第三章的基礎(chǔ)上對(duì)主題建模方法和排序方法做出更進(jìn)一步的改進(jìn)。對(duì)于主題建模方法,基于傳統(tǒng)主題模型在信息檢索任務(wù)上的不理想表現(xiàn),我們通過(guò)分析得出,對(duì)語(yǔ)料層上的主題建模在一定程度上造成了單篇文章主題分布的稀疏性并損失了主題在單篇文檔中的特征表達(dá)精度,這就影響了單篇文檔主題的真實(shí)概率分布?;谝陨戏治?,我們?cè)谖谋窘G跋葘?duì)文檔集聚類,使主題相同或相近的文
6、檔集合盡可能聚集在一起,然后依次對(duì)聚類簇進(jìn)行主題建模,充分發(fā)揮主題模型在信息檢索任務(wù)上的建模能力。對(duì)于排序方法,在詞語(yǔ)相關(guān)度計(jì)算方面,我們采用互動(dòng)百科知識(shí)庫(kù)對(duì)詞語(yǔ)之間的相關(guān)度計(jì)算進(jìn)行改進(jìn),使它們之間的語(yǔ)義關(guān)系變得更準(zhǔn)確。
本文實(shí)驗(yàn)所采用的語(yǔ)料庫(kù)是NTCIR-5(NACSIS Test Collections for IR),實(shí)驗(yàn)后利用TREC信息檢索評(píng)測(cè)工具進(jìn)行相關(guān)指標(biāo)的測(cè)評(píng)。從實(shí)驗(yàn)結(jié)果可以看出,文中提出的基于詞向量主題模型的
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于潛在語(yǔ)義分析的文本檢索算法研究.pdf
- 基于興趣點(diǎn)劃分和文本檢索結(jié)合的圖像檢索方法.pdf
- 基于語(yǔ)言模型的微博文本檢索方法.pdf
- 基于本體的企業(yè)文本檢索模型研究.pdf
- 基于概念的中文文本檢索研究.pdf
- 基于語(yǔ)義分析的文本檢索模型技術(shù)研究.pdf
- 基于語(yǔ)言模型的文本檢索技術(shù)及檢索結(jié)果重排序的研究.pdf
- 文本挖掘及其在文本檢索中的應(yīng)用.pdf
- 基于聚集系數(shù)的文本檢索查詢性能預(yù)測(cè).pdf
- 基于潛在語(yǔ)義索引的中文文本檢索研究.pdf
- 基于小世界理論的P2P文本檢索研究.pdf
- 基于內(nèi)容的中文文本檢索相關(guān)技術(shù)研究.pdf
- 微博的短文本檢索查詢擴(kuò)展與排序方法研究.pdf
- 限定領(lǐng)域下基于概念圖的文本檢索.pdf
- 基于領(lǐng)域本體的生物醫(yī)學(xué)文本檢索.pdf
- 基于GPU圖像搜索中文本檢索的關(guān)鍵技術(shù)研究.pdf
- 基于小世界模型的P2P網(wǎng)絡(luò)文本檢索.pdf
- 改進(jìn)向量空間模型下的文本檢索算法研究.pdf
- 維文文本檢索評(píng)測(cè)集構(gòu)建及可視化方法研究.pdf
- 文本檢索中相關(guān)性信息的擴(kuò)展查詢.pdf
評(píng)論
0/150
提交評(píng)論