領(lǐng)域知識(shí)圖譜的自動(dòng)化構(gòu)建.pdf_第1頁
已閱讀1頁,還剩55頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、隨著Google公司于2012年發(fā)布Google Knowledge Graph,國內(nèi)外開始對(duì)知識(shí)圖譜的研究升溫,相關(guān)研究不斷地涌現(xiàn)。這其中,通用知識(shí)圖譜的構(gòu)建和應(yīng)用得到了長足的發(fā)展,WordNet、DBpedia、Freebase、WikiData等大型通用知識(shí)圖譜相繼發(fā)布。但由于需要領(lǐng)域?qū)<业拇罅咳斯じ深A(yù),因此基于特定領(lǐng)域的知識(shí)庫的構(gòu)建,進(jìn)展卻一直十分緩慢。基于此,本文從工程角度提出了一個(gè)面向領(lǐng)域知識(shí)圖譜的自動(dòng)化構(gòu)建方案,并以此方案

2、開發(fā)出了WAKA-KG框架用于輔助構(gòu)建特定領(lǐng)域的知識(shí)圖譜,有效地降低領(lǐng)域知識(shí)圖譜的構(gòu)建成本。WAKA-KG可以在用戶提供的特定領(lǐng)域模型基礎(chǔ)之上,通過對(duì)海量Web文檔的篩選,自動(dòng)從領(lǐng)域相關(guān)文檔中抽取出實(shí)體及實(shí)體關(guān)系集,然后通過知識(shí)融合以及鏈接預(yù)測技術(shù),增量迭代出該領(lǐng)域知識(shí)庫。WAKA-KG構(gòu)建出的知識(shí)庫是“扁平”的,不包含本體及分類信息,因此不需要過多的人工干預(yù)?;趹?yīng)用的需要,領(lǐng)域?qū)<铱梢赃x擇在WAKA-KG生成的知識(shí)庫的基礎(chǔ)之上,再去

3、做知識(shí)清洗以及本體定義。
  本文研究的主要內(nèi)容包括:
  (1)通過分析觀察,發(fā)現(xiàn)謂詞的詞法功能在語句中通常是固定不變的,另外特定于某一謂詞,實(shí)體之間在依存關(guān)系一般存在著依賴鏈?;谶@兩個(gè)詞法特征,本文使用斯坦福自然語言處理工具包開發(fā)了一個(gè)三元組(知識(shí))抽取組件,接受文本文檔做為輸入,輸出特定形式的三元組;
  (2)參考韓先陪等人的“集體實(shí)體鏈接”[16]概念實(shí)現(xiàn)了一個(gè)三元組鏈接器,通過該組件可以將抽取的三元組消歧

4、后鏈接到知識(shí)圖譜中;
  (3)通過實(shí)體及實(shí)體關(guān)系自動(dòng)抽取所獲得的三元組一般都會(huì)存在大量的噪聲,為了保證知識(shí)庫的構(gòu)建質(zhì)量,系統(tǒng)必須要有一定的策略來消除噪聲。為此,本文在三元組上引入置信度屬性,并且根據(jù)推薦系統(tǒng)的基本原理基于貝葉斯個(gè)性化排序算法(BPR)訓(xùn)練了一個(gè)置信度評(píng)估模型,使用該模型,本文在WAKA-KG框架上實(shí)現(xiàn)了一個(gè)三元組篩選器,對(duì)待選三元組進(jìn)行置信度評(píng)估,利用評(píng)估結(jié)果消除噪聲。
  在WAKA-KG中,本文解決了以

5、下研究挑戰(zhàn):
  1)三元組抽取。三元組抽取實(shí)際上包含了Web文檔或數(shù)據(jù)爬取、實(shí)體及實(shí)體關(guān)系抽取兩部分。為了避免爬蟲成為系統(tǒng)瓶頸,本文對(duì) Java網(wǎng)絡(luò)爬蟲工具WebMagic進(jìn)行了深度定制,優(yōu)化了其網(wǎng)絡(luò)和分布式組件,將其整體效率提升了近2倍。另外,通過分析語句的詞法特征,并結(jié)合使用斯坦福自然語言處理工具包,本文開發(fā)實(shí)現(xiàn)了實(shí)體關(guān)系的自動(dòng)抽取。
  2)實(shí)體消歧。抽取到的三元組需要通過實(shí)體鏈接技術(shù)鏈接到現(xiàn)有圖譜中,以便實(shí)現(xiàn)對(duì)知識(shí)

6、圖譜的擴(kuò)充。這其中最重要的也是最困難的部分就是要對(duì)實(shí)體進(jìn)行消歧,也就是解決命名指稱與實(shí)體對(duì)齊的問題。針對(duì)這一難點(diǎn),本文參考了韓先陪等人的“集體實(shí)體鏈接”[16]概念,開發(fā)實(shí)現(xiàn)了一個(gè)實(shí)體消歧組件,在一定程度上解決了消歧問題。
  3)三元組篩選。WAKA-KG的三元組抽取器是一個(gè)完全自動(dòng)化的組件,它從文本流中抽取的實(shí)體關(guān)系必然不可避免的包含著各種噪聲,為了一定程度上解決這個(gè)問題,本文引入了三元組篩選器模塊,該模塊借用推薦系統(tǒng)的用戶-

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論