版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、社區(qū)問答服務(wù)是指人們通過web社區(qū)相互交流來提出問題和獲取解答的服務(wù)。由于社區(qū)問答系統(tǒng)中包含了許多真實人工用戶生成的知識和經(jīng)驗分享,它已經(jīng)成為人們常用的除傳統(tǒng)搜索引擎以外比較流行的信息求助方式。在社區(qū)問答系統(tǒng)中,用戶可以基于自然語言表達的方式提交問題直接向社區(qū)中的其他用戶尋求答案,也可以通過自動檢索得到與該提問相似的問題,并進一步使用相似問題的現(xiàn)成答案。對于大多數(shù)非事實性問題特別是一些帶個人上下文或?qū)で蠼ㄗh的開放性問題,問題檢索往往比基
2、于自然語言處理和信息檢索從web文檔中抽取文檔片段并提取答案的傳統(tǒng)方法更加有效。正因為如此,針對web社區(qū)一般性問題的檢索已經(jīng)成為下一代智能信息檢索的一個重要組成部分。
稀疏化學習是近年來興起的新型統(tǒng)計學習方法。本文以稀疏正則化為主要工具,對社區(qū)問答中的一系列關(guān)鍵技術(shù)開展研究。具體而言,本文主要研究了web社區(qū)中復(fù)雜多語句問題的答案摘要技術(shù),問題的自動層次話題分類技術(shù)和問題檢索模型的改進技術(shù)。本文的主要工作和創(chuàng)新點如下:
3、> 1.自動答案摘要:對于社區(qū)中的復(fù)雜多語句問題,即那些往往包含很多子問題和相應(yīng)上下文的問題,其“最佳答案”往往存在所謂的“答案不完整”缺陷——它對應(yīng)的“最佳答案”不夠全面完整,缺失了其它答案中包含的對問題回答有用的信息。本文提出一種新穎的自動答案摘要方法來歸納問題的所有答案中的有價值的信息。該方法基于條件隨機場模型來對答案句子間的局部/非局部上下文關(guān)系進行建模,并使用組L1正則化來對參數(shù)進行懲罰,充分挖掘各特征的潛能。
2
4、.問題層次分類:用戶在社區(qū)問答系統(tǒng)上提交問題時,系統(tǒng)要求用戶為該問題手工選擇一個層次目錄來表明問題的話題類別,這樣既方便系統(tǒng)將該問題推薦給相應(yīng)話題的領(lǐng)域?qū)<胰ソ獯穑部梢员憷窈笃渌脩舻臑g覽和檢索。然而,手工給問題進行類別標注需要對整個層次目錄體系有全面認識,因而既費時又影響用戶體驗。為了省去手工對問題進行話題分類的麻煩,本文提出一種自動的問題核化層次話題分類算法,將問題中各特征的多核學習和參數(shù)的稀疏正交約束結(jié)合起來,在提升模型對相似
5、話題類別的判別能力的同時減少了模型的參數(shù)個數(shù)。
3.問題檢索模型:為了進一步提高社區(qū)問答中已有問題的可用性,本文研究了基于自動分類結(jié)果改善問題檢索效果的技術(shù)?,F(xiàn)有的檢索模型在度量某個查詢詞對該查詢的重要性時往往按其在查詢中出現(xiàn)的頻率來計算,這對于那些每個查詢詞只出現(xiàn)一次的情形不起作用。與現(xiàn)有的檢索方法不同,我們使用稀疏化的問題分類方法來模擬真實用戶的層次類別標注過程,并且根據(jù)該過程來自動挑選其中的重要檢索詞項和獲取其對該查詢的
6、局部權(quán)重。另外,我們還對初步檢索結(jié)果進行基于結(jié)果間相似度的重排序,進一步提高問題檢索的性能。
本文的多數(shù)方法都使用帶有稀疏性質(zhì)的正則化項來約束模型的參數(shù)。這樣做有幾個好處:第一,減少了模型的參數(shù)。由于特征的減少,模型所需要的訓練數(shù)據(jù)也相應(yīng)地減少,防止了模型因為參數(shù)太多而過擬合的情況,并且增強了在新數(shù)據(jù)上的泛化能力;第二,提高了模型的效率。由于參數(shù)的減少,用于存儲模型的空間和計算時間也有所降低;第三,有利于關(guān)系依賴的發(fā)現(xiàn)。通過稀
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 社區(qū)型問答中問句檢索關(guān)鍵技術(shù)研究.pdf
- 定義問答檢索關(guān)鍵技術(shù)研究.pdf
- Web信息檢索的關(guān)鍵技術(shù)研究.pdf
- Web檢索優(yōu)化的關(guān)鍵技術(shù)研究.pdf
- 面向Web的XML檢索關(guān)鍵技術(shù)研究.pdf
- 基于web的音樂哼唱檢索關(guān)鍵技術(shù)研究
- 基于Web的音樂哼唱檢索關(guān)鍵技術(shù)研究.pdf
- 面向Deep Web的對象檢索關(guān)鍵技術(shù)研究.pdf
- 位置相關(guān)的Web信息檢索關(guān)鍵技術(shù)研究.pdf
- Web信息檢索與主題提取的關(guān)鍵技術(shù)研究.pdf
- 面向智能信息檢索的Web挖掘關(guān)鍵技術(shù)研究.pdf
- 基于時態(tài)語義的Web信息檢索關(guān)鍵技術(shù)研究.pdf
- 位置相關(guān)的web信息檢索關(guān)鍵技術(shù)研究(1)
- 面向用戶的Web圖像檢索關(guān)鍵技術(shù)研究.pdf
- 面向web2.0社區(qū)的爬蟲關(guān)鍵技術(shù)研究
- 圖像檢索關(guān)鍵技術(shù)研究.pdf
- 基于本體的Web信息檢索系統(tǒng)及其關(guān)鍵技術(shù)研究.pdf
- 基于多特征的Web社區(qū)發(fā)現(xiàn)關(guān)鍵技術(shù)研究.pdf
- 博客檢索的關(guān)鍵技術(shù)研究.pdf
- 面向web社區(qū)的觀點挖掘關(guān)鍵技術(shù)研究與實現(xiàn).pdf
評論
0/150
提交評論