基于眾包和兩層相關性聚類的實體解析方法.pdf_第1頁
已閱讀1頁,還剩61頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、在現(xiàn)實世界中,同一個實體可能被多個數(shù)據(jù)源中的記錄所描述。實體解析的任務就是確定哪些記錄描述著現(xiàn)實世界中的同一個實體。實體解析是數(shù)據(jù)集成和數(shù)據(jù)清理中的一個關鍵步驟,它不僅能夠提高數(shù)據(jù)的質(zhì)量,還能夠豐富單一數(shù)據(jù)的內(nèi)容。然而,隨著大數(shù)據(jù)時代的到來,各式各樣的數(shù)據(jù)質(zhì)量問題為實體解析帶來了前所未有的挑戰(zhàn)。面對紛雜的數(shù)據(jù)質(zhì)量問題,傳統(tǒng)的實體解析算法在效率、質(zhì)量,特別是抗噪聲能力方面的表現(xiàn)并不理想。在數(shù)據(jù)存在噪聲的情況下,實體解析算法經(jīng)常會出現(xiàn)不一致

2、的判斷結果,傳統(tǒng)的做法是在匹配結果之上進行一次傳遞性閉包分析,這種做法極易將錯誤放大和傳遞。
  相關性聚類是實體解析的一個標準方法,它以記錄對的匹配程度為依據(jù),產(chǎn)生最大程度支持這些依據(jù)的聚類結果。相關性聚類為NP-hard問題,很多啟發(fā)式的算法被提出,但效果并不理想。本文在相關性聚類的基礎上,提出一個快速有效、抗噪聲能力比較強和可擴展的實體解析方法。主要研究工作如下:
  (1)提出一種新穎的兩層相關性聚類框架。該框架上層

3、采用預分塊算法對節(jié)點進行可重疊的分塊;下層則使用調(diào)整塊算法去除上層算法的重疊部分。
  (2)首次在相關性聚類問題中引入公共鄰居的概念,并基于鄰居關系給出鄰居相似度的計算方法。本文首先分析如何使用鄰居來表示一個塊,并由此提出一個啟發(fā)式的上層預分塊算法。
  (3)提出核的概念,并由此定義節(jié)點與塊之間的關聯(lián)程度。核的概念突出塊內(nèi)關聯(lián)強度最大的部分,由核來決定節(jié)點與塊之間的關聯(lián)程度可以更加準確地判斷節(jié)點的歸屬,進而提高實體解析的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論