版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、隨著互聯(lián)網的普及和檢索技術的發(fā)展,信息檢索的研究范疇已經遠遠超出了傳統(tǒng)的文檔檢索,實體檢索目前已成為信息檢索研究領域的新焦點。給定用戶的信息需求,該技術旨在檢索特定的實體如“人”、“地點”、“組織”、“產品”等。本文針對目前實體檢索研究領域亟待解決的一系列重要問題,對實體檢索展開了系統(tǒng)深入的研究。
本文首先研究了實體檢索中最重要的一類問題——專家發(fā)現(xiàn)(expert finding)問題:
1.研究了文檔、查詢與候選實
2、體的關聯(lián)子模型。在經典的專家發(fā)現(xiàn)模型中,通常假設在給定文檔的條件下,候選實體與查詢詞項條件獨立。但是,該假設在實際應用中往往不成立,從而導致專家發(fā)現(xiàn)系統(tǒng)性能不佳。針對該問題,本文提出了一種基于主題模型的專家發(fā)現(xiàn)方法。該方法建立在潛在Dirichlet分配(latent Dirichlet allocation,LDA)模型的基礎上,無需依賴上述條件獨立性假設。在CERC(CSIRO Enterprise Research Collect
3、ion)數(shù)據(jù)集上的測試結果表明,基于主題模型的專家發(fā)現(xiàn)方法能夠有效地提升專家發(fā)現(xiàn)系統(tǒng)的效能。
2.研究了專家發(fā)現(xiàn)模型中的文檔先驗分布。提出了基于DocRank算法的專家發(fā)現(xiàn)模型。另外,針對DocRank算法無法處理“同義詞”、“近義詞”的問題,又提出了TopicRank算法。TopicRank算法使用LDA模型來提取文檔的主題,然后通過分析各個文檔的主題分布來構造文檔圖,最后使用鏈接分析來得到文檔先驗分布。在此基礎上,建立了基
4、于TopicRank算法的文檔先驗子模型。
3.研究了專家發(fā)現(xiàn)模型中的候選實體先驗分布。候選實體先驗概率是對各個候選實體重要性的度量,合理地定義它能夠極大地提升專家發(fā)現(xiàn)系統(tǒng)的性能。但是,目前大部分研究都簡單地假設候選實體先驗概率服從均勻分布,即認為所有候選實體是同等重要的。顯然,這是與實際情況不相符的。本文提出了一種以主題為中心的候選實體先驗子模型,該模型能夠有效地利用整個語料集中的信息來得到更加合理的候選實體先驗概率。
5、> 研究不同實體之間的關系對于實體檢索非常重要,然而專家發(fā)現(xiàn)系統(tǒng)卻無法對實體之間的關系進行檢索。因此,論文進一步研究了相關實體發(fā)現(xiàn)(related entity finding)問題:
1.研究了表格和列表中的實體提取方法。網頁的表格和列表中包含了大量實體。然而這些實體周圍缺少上下文,命名實體識別工具無法有效提取表格和列表中的實體。本文提出了一種針對表格和列表的實體提取方法,該方法首先依據(jù)各種表格和列表的特性對其進行分類,之
6、后結合目標實體的精細類型信息從表格和列表中提取出候選實體。
2.研究了實體過濾問題。由于使用實體提取方法得到的候選實體列表中包含大量的噪聲,在實體提取之后,通常需要對候選實體列表進行過濾。本文提出了基于文檔頻率的實體過濾模型。與傳統(tǒng)的利用實體類型信息進行過濾的方法截然不同,該模型主要利用了實體的文檔頻率信息過濾實體,具有計算量小、實時性強、效率高的優(yōu)點。
3.研究了實體排序問題。提出了一種基于主題模型的實體排序方法,
7、該方法首先使用LDA提取出相關文檔集合的主題分布。在此基礎上,利用候選實體與查詢之間的同現(xiàn)概率進行實體排序。
論文最后研究了實體名稱排歧問題。實體名稱歧義性問題是實體檢索研究中經常遇到的問題。一個實體往往可能具有多個不同的名稱,而多個實體也可能共享同一名稱。本文研究了實體名稱排歧中最重要的一類問題——人物姓名排歧,提出了一種三階段人物姓名排歧模型。在第一階段,提出了基于主題模型的人物姓名排歧算法,并分別使用該算法和凝聚式層次聚
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于實體的海量數(shù)據(jù)在線檢索關鍵技術研究.pdf
- 基于內容的視覺媒體檢索關鍵技術研究.pdf
- 基于內容的圖像檢索理論與關鍵技術研究.pdf
- 圖像檢索關鍵技術研究.pdf
- 博客檢索的關鍵技術研究.pdf
- 實體關系抽取關鍵技術研究.pdf
- 定義問答檢索關鍵技術研究.pdf
- 基于哈希學習的跨媒體檢索關鍵技術研究及系統(tǒng)實現(xiàn).pdf
- Web實體活動融合關鍵技術研究.pdf
- 音樂哼唱檢索關鍵技術研究.pdf
- 圖像檢索若干關鍵技術研究.pdf
- 圖像檢索關鍵技術研究(1)
- Web檢索優(yōu)化的關鍵技術研究.pdf
- XML信息檢索關鍵技術研究.pdf
- 足球視頻檢索關鍵技術研究.pdf
- Web信息檢索的關鍵技術研究.pdf
- Web信息檢索與主題提取的關鍵技術研究.pdf
- 數(shù)字藝術圖形分類與檢索關鍵技術研究.pdf
- 基于內容的視頻檢索關鍵技術研究與仿真.pdf
- 基于本體的語義檢索關鍵技術研究.pdf
評論
0/150
提交評論