版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、<p> 基于本體的Web文檔知識獲取的框架研究</p><p> 摘 要 本文在分析了Web文本的知識獲取途徑之后,提出了一個基于本體的Web文檔知識獲取模型。該模型具有較好的適應(yīng)性和可移植性,模型使用了可擴充標(biāo)記語言(XML),使得對知識庫的處理更加簡便。最后,通過一個臨床實例對其流程進行了詳細(xì)說明,并分析其在醫(yī)院知識庫系統(tǒng)中的應(yīng)用。</p><p> 關(guān)鍵字 知
2、識獲取;本體;Web文檔</p><p><b> 1 引言</b></p><p> 互聯(lián)網(wǎng)技術(shù)的發(fā)展為知識獲取方法的研究帶來了機遇和挑戰(zhàn)。必須發(fā)展相應(yīng)的知識自動獲取技術(shù)。為了使語義網(wǎng)應(yīng)用到實際中給人們提供知識服務(wù),就需要解決從Web文檔中獲取知識的問題。盡管從Web頁面的注釋中我們可以發(fā)現(xiàn)部分信息,然而所獲得的信息是不全面的,而且很難能獲取元信息。有研究者將
3、本體的概念引入到知識發(fā)現(xiàn)領(lǐng)域[1] [5],但還沒有充分發(fā)揮到本體的優(yōu)勢。本文中本體以概念和關(guān)系來劃分知識類型,并且以獲取知識的本體為指導(dǎo)來從非結(jié)構(gòu)化的Web文檔中發(fā)現(xiàn)知識。</p><p> 2 面向Web文本的知識獲取途徑</p><p> 互聯(lián)網(wǎng)中存在大量的Web文檔,其中記載著大量的信息。通過超鏈接逐頁閱讀相關(guān)文獻來查找所需信息是初級的且效率較低的知識獲取方式。從文本中發(fā)現(xiàn)知
4、識并提供給用戶從技術(shù)上講有兩條主要途徑:</p><p> (1)傳統(tǒng)的途徑,即通過使用如歸納程序等工具直接獲取文本中的知識,或通過知識工程師或領(lǐng)域?qū)<沂褂弥R編輯、編譯工具間接獲取知識,然后構(gòu)造專家系統(tǒng)知識庫,通過專家系統(tǒng)間接為用戶提供知識[2]。這種方法有如下不足:第一,專家系統(tǒng)知識庫的表現(xiàn)形式不統(tǒng)一,存在知識難以共享的問題,且不適合逐頁瀏覽;第二,在知識從文本轉(zhuǎn)移到專家系統(tǒng)知識庫過程中,存在信息丟失的弊端
5、 [3]。</p><p> (2)自然語言技術(shù),即直接從自然語言文本獲取有用的知識并提供給用戶[4]。但由于目前自然語言理解水平還比較低,主要是利用用戶提供的樣本進行訓(xùn)練,然后開發(fā)相應(yīng)的程序來獲取特定范圍的知識。這種途徑的缺點是有限的樣本庫資源限制決定了其應(yīng)用范圍的狹窄性。</p><p> 為此,需要有一種新的知識獲取方法,它能以適當(dāng)?shù)姆绞郊皶r地將適用的知識從眾多的文本提供給用戶。
6、將知識表示技術(shù)處理技術(shù)及XML技術(shù)標(biāo)準(zhǔn)結(jié)合起來,構(gòu)成了一種新的知識獲取途徑。</p><p> 3 基于本體的知識獲取模型</p><p> 3.1 本體的基本概念</p><p> 本體的英文有兩種寫法:①大寫開頭的Ontology 指哲學(xué)領(lǐng)域的本體論的概念。在哲學(xué)中Ontology 是一種存在的系統(tǒng)化解釋,用于描述事物的本質(zhì)。本體論的概念和方法被計算機
7、領(lǐng)域采用,用于知識表示、知識共享和重用。②小寫開頭的ontology 是計算機領(lǐng)域廣泛使用的概念,翻譯為本體,是某領(lǐng)域內(nèi)共享概念的明確的形式化規(guī)范說明。雖然本體還沒有一個明確的定義,AI領(lǐng)域普遍認(rèn)同Gruber于1995年指出類似的概念:本體是“概念化(Conceptualization) 的顯式( Explicit) 說明或表示”[6] 。直觀地講,本體是一個實體,是對某一領(lǐng)域應(yīng)用本體論的方法分析、建模的結(jié)果,即將現(xiàn)實世界中的某個領(lǐng)域
8、抽象為一組概念及概念之間的關(guān)系。</p><p> 3.2 基于本體的知識獲取方法</p><p> 很多知識獲取系統(tǒng)(如IE)能識別一些文檔實體,例如張三是一個人,2004年6月是一個日期,但是如果不將這些信息通過它們之間的關(guān)系聯(lián)系起來,就沒有太多的實用價值了。因為它不能表達(dá)出張三出生于2004年6月的完整含義。這就要求有一種自動處理機制用于發(fā)現(xiàn)實體之間的關(guān)系,也就是要求信息向本體
9、轉(zhuǎn)化。</p><p> 基于本體的知識獲取模型將知識獲取工具與本體聯(lián)系在一起,用本體來支持和指導(dǎo)知識獲取,是零散的信息集中到一起形成知識,以不斷地獲取知識。知識獲取工具通過搜索Web文檔,將那些能與給定的規(guī)則結(jié)構(gòu)匹配的知識提取出來,然后將它格式化為一種便于機器閱讀的格式(如XML),并將它存入知識庫(KnowledgeBase)。在知識獲取過程中起指導(dǎo)作用的本體本身也要采用一種字典擴展機制來擴展本體集合。&l
10、t;/p><p> 3.3 基于本體的知識獲取模型</p><p> 基于本體的知識獲取模型包括知識獲取、信息管理、和知識生成3大部分。其中知識獲取工具利用搜索引擎技術(shù)從Web文檔中一點一點地收集信息項(如句子和段落)。知識獲取工具將所獲得的信息片斷和本體字典庫中的元數(shù)據(jù)一起傳送到本體服務(wù)器中,本體服務(wù)器存儲并固化這些信息到知識庫以備知識生成工具訪問,當(dāng)用戶請求查詢某條相關(guān)信息時,知識生
11、成工具從知識庫中獲取信息并生成知識敘述通過用戶接口返回信息給用戶。其結(jié)構(gòu)如圖1所示。</p><p><b> 1) 知識獲取</b></p><p> 首先,用戶向系統(tǒng)發(fā)出請求并提供相關(guān)的信息,如姓名,職業(yè)等;然后知識獲取工具根據(jù)用戶所提供的信息,利用Web搜索引擎在Web文檔中進行檢索,其檢索到的信息項以句子和段落的形式,傳送到本體庫中;在本體庫中,根據(jù)用戶提
12、供的信息在本體字典找到需要的元數(shù)據(jù),并連同Web搜索引擎的結(jié)果一起發(fā)送到本體服務(wù)器上。</p><p><b> 2) 信息管理</b></p><p> 信息管理模塊主要由本體服務(wù)器和知識庫組成。本體服務(wù)器在接收到知識獲取模塊發(fā)送的信息項和本體元數(shù)據(jù)后,根據(jù)元數(shù)據(jù)對信息項進行處理,通過對句子和段落進行語義識別,包括語法分析、語義分析和本體分析,生成一個關(guān)于本體的
13、XML文檔,其中的各屬性名為本體的屬性,對應(yīng)的值是從語義識別中獲得數(shù)據(jù)。然后將生成的XML文檔保存到知識庫中,以備返回給用戶接口程序,為用戶提供知識。</p><p><b> 3) 知識生成</b></p><p> 知識生成模塊主要負(fù)責(zé)將知識庫中的知識,以自然語言的形式生成知識文檔,通過用戶接口,輸出給用戶界面。其中最重要的是知識文檔的生成,由于在知識庫中預(yù)先
14、存有知識文檔模板,因此只要將知識文檔中對應(yīng)的屬性值填充到模板的相應(yīng)位置即可。</p><p><b> 4 實例分析</b></p><p> 大多數(shù)Web信息以自然語言文檔形式存在,一般的信息獲取工具可以將文檔信息分成實體,但是它們不能識別實體間的相互關(guān)系。為此提出了一種基于本體的識別工具來識別實體中的信息碎片及它們之間的關(guān)系。本系統(tǒng)以一個臨床疾病的本體為例,
15、該本體除了包含該疾病的臨床表現(xiàn)、主要特征等外,還包含了這些文本信息所在的網(wǎng)絡(luò)路徑,以便重新組織它們時起指導(dǎo)作用。</p><p> 例如用戶從用戶接口發(fā)出請求查詢感冒的知識,知識生成工具迅速搜索知識庫,看能否找到有關(guān)感冒的知識。如果沒有找到,則通知知識獲取工具從Web中去搜索,然后從搜索結(jié)果中過濾出相關(guān)文檔。例如用百度搜索引擎搜索到100個包含感冒的網(wǎng)址,這些網(wǎng)址當(dāng)中可能會含關(guān)于感冒的治療、預(yù)防等,這些網(wǎng)址要采
16、用過濾技術(shù)將其過濾掉。一旦某個文檔被選中,它隨即被分成段、句。然后從語義的角度尋找相關(guān)知識,如果語法相關(guān)則進行語義識別。</p><p><b> 4.1 語義識別</b></p><p> 例如某文檔內(nèi)容為:通常所說的“感冒”主要指的是西醫(yī)學(xué)的“上呼吸道感染”,……,臨床表現(xiàn)為鼻塞、流涕、噴嚏、咳嗽、頭痛、惡寒發(fā)熱、全身不適為主要特征。流行性感冒則是由感染流感
17、病毒引起,有以下特點:如發(fā)作多呈流行性,中毒癥狀常更重,甚至表現(xiàn)為寒戰(zhàn)高熱、周身酸痛,全身癥狀明顯等。本病四季均可發(fā)生,以冬、春兩季多見,所有人群均易感。</p><p> 為了從二進制信息中獲取實體關(guān)系,需要用存儲在本體中的領(lǐng)域?qū)<业闹R來決定實體間的關(guān)系。為此必須向本體服務(wù)器請求本體相關(guān)知識,而且在定義本體的同時,還必須有詞典的幫助。例如一個詞有同義詞、廣義詞、狹義詞等。</p><p&
18、gt; 例如對“通常所說的‘感冒’主要指的是西醫(yī)學(xué)的‘上呼吸道感染’,……,臨床表現(xiàn)為鼻塞、流涕、噴嚏、咳嗽、頭痛、惡寒發(fā)熱、全身不適為主要特征?!边@個句子的分析過程用謂詞邏輯描述如下:</p><p><b> 1)語法分析</b></p><p> none(感冒);none(上呼吸道感染);verb(指);</p><p> su
19、bject(感冒);predicate(指);object(上呼吸道感染)。</p><p><b> 2)語義分析</b></p><p> disease(感冒);name(上呼吸道感染)。</p><p><b> 3)本體分析</b></p><p> 假設(shè)本體的模型為:疾病名稱,專
20、業(yè)名稱,臨床表現(xiàn)……正好與語義分析的結(jié)果匹配,于是原句被分成兩個句子,感冒的專業(yè)名稱是上呼吸道感染,感冒的臨床表現(xiàn)是鼻塞、流涕、噴嚏、咳嗽、頭痛、惡寒發(fā)熱、全身不適。</p><p><b> 4)知識存儲</b></p><p> 每次知識獲取產(chǎn)生一個XML文檔輸出,并將其存入知識庫中。整體分析過程如圖2所示。</p><p><b
21、> 4.2 知識生成</b></p><p> 機器可以通過結(jié)構(gòu)化的本體來交換信息,但是人們需要一個較為直觀的接口。如記敘的方式,就是一個較為自然的方式。在此系統(tǒng)中,知識庫中已經(jīng)存儲了一些本體信息,它們之間沒有明確的順序,但是有一定的相互關(guān)系。所以只需要將他們按照一定的序列組織起來即可。</p><p><b> 5 結(jié)論</b></
22、p><p> 基于本體的知識獲取模型,由于引入了本體庫,使Web文本中零散的知識更加容易被發(fā)現(xiàn),因此該模型在獲取知識的全面性上有一定的優(yōu)勢;而且本體庫可以針對不同的領(lǐng)域設(shè)計,因此只要開發(fā)出對應(yīng)領(lǐng)域的本體庫,就可以很方便地實現(xiàn)向該領(lǐng)域的移植;同時利用XML語言來表示本體,可以更加簡便地處理知識庫的信息。當(dāng)前醫(yī)院知識庫系統(tǒng)中存在大量可用知識,它們都以分散的Web文本形式存在,因此將基于本體的知識獲取系統(tǒng)引入其中,必然可
23、以得到大量對診斷具有意義的知識。這將為廣大臨床醫(yī)師做出更好更準(zhǔn)確地診斷提供一定的依據(jù)。</p><p><b> 參考文獻</b></p><p> [1] M.Vargas-Vera et al.,”Knowledge Extraction Using an Ontology-Based Annotation Tool,” Workshop on Knowled
24、ge Markup& Semantic Annotation, ACM Press, New York, 2001,5-12</p><p> [2] 賴朝安 孫延明 齊德昱 鄭時雄,《基于自然語言理解的專家系統(tǒng)研究》,計算機工程,2003.01,vol.29:20-34</p><p> [3] 賴朝安 孫延明 鄭時雄,《面向Web文本的機械知識獲取方法研究》,機械設(shè)
25、計,2002.08:33-36</p><p> [4] 鄧志鴻 唐世渭 等. 面向語義集成-本體在Web信息集成中的研究進展. 計算機應(yīng)用.2002,22(1).-15-17 </p><p> [5] Gruber T R, Towards Principles for the Design of Ontologies Used for Knowledge Sharing[J ]
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 語義Web粗糙本體支持的知識獲取方法研究.pdf
- 基于本體的船舶領(lǐng)域知識獲取研究
- 基于本體的Web生物數(shù)據(jù)獲取技術(shù)的研究.pdf
- 基于本體的船舶領(lǐng)域知識獲取研究.pdf
- 基于本體的知識情境識別和獲取研究.pdf
- 基于文本的中文本體知識獲取的研究.pdf
- 基于本體的知識檢索框架的研究.pdf
- 基于本體的文本知識修正與獲取.pdf
- 基于Web知識的本體語義映射研究.pdf
- 基于本體的知識發(fā)現(xiàn)系統(tǒng)框架研究.pdf
- 基于本體的網(wǎng)站結(jié)構(gòu)知識獲取與分析.pdf
- 基于領(lǐng)域本體的知識獲取和重用技術(shù)研究.pdf
- 基于本體的模具企業(yè)知識分類框架研究.pdf
- 基于Web知識關(guān)聯(lián)挖掘的本體進化研究.pdf
- 基于本體的知識建??蚣芗皩嵗芯?pdf
- 基于web of science的本體研究知識圖譜構(gòu)建分析
- Web文檔中信息的獲取與表示研究.pdf
- 基于本體和問題求解方法的Web服務(wù)管理框架研究.pdf
- 基于知識粒度的Web文檔聚類研究.pdf
- 醫(yī)學(xué)本體和醫(yī)學(xué)知識獲取的研究.pdf
評論
0/150
提交評論