版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、隨著Google公司于2012年發(fā)布Google Knowledge Graph,國內(nèi)外開始對(duì)知識(shí)圖譜的研究升溫,相關(guān)研究不斷地涌現(xiàn)。這其中,通用知識(shí)圖譜的構(gòu)建和應(yīng)用得到了長足的發(fā)展,WordNet、DBpedia、Freebase、WikiData等大型通用知識(shí)圖譜相繼發(fā)布。但由于需要領(lǐng)域?qū)<业拇罅咳斯じ深A(yù),因此基于特定領(lǐng)域的知識(shí)庫的構(gòu)建,進(jìn)展卻一直十分緩慢。基于此,本文從工程角度提出了一個(gè)面向領(lǐng)域知識(shí)圖譜的自動(dòng)化構(gòu)建方案,并以此方案
2、開發(fā)出了WAKA-KG框架用于輔助構(gòu)建特定領(lǐng)域的知識(shí)圖譜,有效地降低領(lǐng)域知識(shí)圖譜的構(gòu)建成本。WAKA-KG可以在用戶提供的特定領(lǐng)域模型基礎(chǔ)之上,通過對(duì)海量Web文檔的篩選,自動(dòng)從領(lǐng)域相關(guān)文檔中抽取出實(shí)體及實(shí)體關(guān)系集,然后通過知識(shí)融合以及鏈接預(yù)測技術(shù),增量迭代出該領(lǐng)域知識(shí)庫。WAKA-KG構(gòu)建出的知識(shí)庫是“扁平”的,不包含本體及分類信息,因此不需要過多的人工干預(yù)?;趹?yīng)用的需要,領(lǐng)域?qū)<铱梢赃x擇在WAKA-KG生成的知識(shí)庫的基礎(chǔ)之上,再去
3、做知識(shí)清洗以及本體定義。
本文研究的主要內(nèi)容包括:
(1)通過分析觀察,發(fā)現(xiàn)謂詞的詞法功能在語句中通常是固定不變的,另外特定于某一謂詞,實(shí)體之間在依存關(guān)系一般存在著依賴鏈?;谶@兩個(gè)詞法特征,本文使用斯坦福自然語言處理工具包開發(fā)了一個(gè)三元組(知識(shí))抽取組件,接受文本文檔做為輸入,輸出特定形式的三元組;
(2)參考韓先陪等人的“集體實(shí)體鏈接”[16]概念實(shí)現(xiàn)了一個(gè)三元組鏈接器,通過該組件可以將抽取的三元組消歧
4、后鏈接到知識(shí)圖譜中;
(3)通過實(shí)體及實(shí)體關(guān)系自動(dòng)抽取所獲得的三元組一般都會(huì)存在大量的噪聲,為了保證知識(shí)庫的構(gòu)建質(zhì)量,系統(tǒng)必須要有一定的策略來消除噪聲。為此,本文在三元組上引入置信度屬性,并且根據(jù)推薦系統(tǒng)的基本原理基于貝葉斯個(gè)性化排序算法(BPR)訓(xùn)練了一個(gè)置信度評(píng)估模型,使用該模型,本文在WAKA-KG框架上實(shí)現(xiàn)了一個(gè)三元組篩選器,對(duì)待選三元組進(jìn)行置信度評(píng)估,利用評(píng)估結(jié)果消除噪聲。
在WAKA-KG中,本文解決了以
5、下研究挑戰(zhàn):
1)三元組抽取。三元組抽取實(shí)際上包含了Web文檔或數(shù)據(jù)爬取、實(shí)體及實(shí)體關(guān)系抽取兩部分。為了避免爬蟲成為系統(tǒng)瓶頸,本文對(duì) Java網(wǎng)絡(luò)爬蟲工具WebMagic進(jìn)行了深度定制,優(yōu)化了其網(wǎng)絡(luò)和分布式組件,將其整體效率提升了近2倍。另外,通過分析語句的詞法特征,并結(jié)合使用斯坦福自然語言處理工具包,本文開發(fā)實(shí)現(xiàn)了實(shí)體關(guān)系的自動(dòng)抽取。
2)實(shí)體消歧。抽取到的三元組需要通過實(shí)體鏈接技術(shù)鏈接到現(xiàn)有圖譜中,以便實(shí)現(xiàn)對(duì)知識(shí)
6、圖譜的擴(kuò)充。這其中最重要的也是最困難的部分就是要對(duì)實(shí)體進(jìn)行消歧,也就是解決命名指稱與實(shí)體對(duì)齊的問題。針對(duì)這一難點(diǎn),本文參考了韓先陪等人的“集體實(shí)體鏈接”[16]概念,開發(fā)實(shí)現(xiàn)了一個(gè)實(shí)體消歧組件,在一定程度上解決了消歧問題。
3)三元組篩選。WAKA-KG的三元組抽取器是一個(gè)完全自動(dòng)化的組件,它從文本流中抽取的實(shí)體關(guān)系必然不可避免的包含著各種噪聲,為了一定程度上解決這個(gè)問題,本文引入了三元組篩選器模塊,該模塊借用推薦系統(tǒng)的用戶-
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 中文醫(yī)療知識(shí)圖譜半自動(dòng)化構(gòu)建研究.pdf
- 基于模板誘導(dǎo)的金融領(lǐng)域知識(shí)圖譜自動(dòng)構(gòu)建.pdf
- 我國遠(yuǎn)程教育領(lǐng)域的知識(shí)圖譜構(gòu)建.pdf
- 教育領(lǐng)域知識(shí)圖譜的構(gòu)建方法及應(yīng)用研究.pdf
- 產(chǎn)品平臺(tái)領(lǐng)域的知識(shí)圖譜研究
- 產(chǎn)品平臺(tái)領(lǐng)域的知識(shí)圖譜研究.pdf
- 領(lǐng)域知識(shí)圖譜的技術(shù)與應(yīng)用
- 知識(shí)圖譜構(gòu)建方法研究
- 領(lǐng)域應(yīng)用 知識(shí)圖譜的技術(shù)與應(yīng)用
- 戰(zhàn)略規(guī)劃領(lǐng)域的知識(shí)圖譜研究.pdf
- 學(xué)術(shù)機(jī)構(gòu)知識(shí)圖譜的構(gòu)建研究.pdf
- 教育技術(shù)學(xué)知識(shí)圖譜的構(gòu)建.pdf
- 基于文言虛詞的知識(shí)圖譜構(gòu)建.pdf
- 中醫(yī)健康知識(shí)圖譜的構(gòu)建研究.pdf
- 領(lǐng)域入門知識(shí)圖譜地技術(shù)與-應(yīng)用
- 知識(shí)圖譜_信息管理與知識(shí)管理的新領(lǐng)域
- 海事Web信息挖掘與知識(shí)圖譜構(gòu)建.pdf
- 基于知識(shí)圖譜的保險(xiǎn)產(chǎn)品個(gè)性化推薦系統(tǒng)構(gòu)建.pdf
- 基于CiteSpaceⅢ輸血醫(yī)學(xué)研究領(lǐng)域知識(shí)圖譜分析.pdf
- 基于微博的知識(shí)圖譜的構(gòu)建與研究.pdf
評(píng)論
0/150
提交評(píng)論