開放域命名實(shí)體識別及其層次化類別獲取.pdf_第1頁
已閱讀1頁,還剩130頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、命名實(shí)體識別的目標(biāo)是識別文本中事物的名稱并分類。傳統(tǒng)命名實(shí)體識別任務(wù)主要識別人名、地名和機(jī)構(gòu)名等。但由于傳統(tǒng)命名實(shí)體的類別有限,不能完全滿足自然語言處理領(lǐng)域其他任務(wù)的需求。因此本文重點(diǎn)研究開放域命名實(shí)體的識別和層次化類別獲取,旨在為信息抽取、信息檢索、開放域問答、機(jī)器翻譯等自然語言處理任務(wù)提供支持。
  開放域命名實(shí)體相對傳統(tǒng)命名實(shí)體有兩個(gè)主要特點(diǎn):類別更多且不固定;類別更細(xì)且有層次。這導(dǎo)致開放域命名實(shí)體的識別面臨無法標(biāo)注訓(xùn)練語料

2、、同一個(gè)命名實(shí)體屬于多個(gè)不同粒度的類別等挑戰(zhàn),無法應(yīng)用傳統(tǒng)的序列標(biāo)注的方法來解決。本文將開放域命名實(shí)體識別任務(wù)分為兩個(gè)方面:邊界識別和類別獲取。邊界識別面臨的主要問題是訓(xùn)練語料的構(gòu)建以及有效利用。類別獲取面臨的主要問題是類別體系不可預(yù)先確定以及類別的層次化。本文的研究工作旨在解決上述兩個(gè)問題,主要研究內(nèi)容包括以下四個(gè)方面:
  第一部分為基于英漢雙語平行語料自動構(gòu)建漢語命名實(shí)體識別語料。命名實(shí)體識別訓(xùn)練語料不足會導(dǎo)致的領(lǐng)域過擬合問

3、題,而人工標(biāo)注的成本太高,本文使用雙語平行語料將英語命名實(shí)體自動識別的標(biāo)記映射到漢語端,從而實(shí)現(xiàn)漢語命名實(shí)體語料的自動標(biāo)注。然后進(jìn)一步使用多種策略綜合篩選高質(zhì)量的實(shí)例作為訓(xùn)練語料。實(shí)驗(yàn)證明這種方法可以自動構(gòu)建大量的漢語命名實(shí)體識別訓(xùn)練語料,在該語料上訓(xùn)練的模型與人工標(biāo)注語料上訓(xùn)練的模型性能接近,并且通過和人工標(biāo)注的語料融合可以提高命名實(shí)體識別的準(zhǔn)確率和召回率。此外,我們還詳細(xì)分析了平行語料規(guī)模和來源對命名實(shí)體識別效果的影響。
  

4、第二部分為基于自學(xué)習(xí)的開放域命名實(shí)體邊界識別。漢語開放域命名實(shí)體識別尚缺乏訓(xùn)練語料,而命名實(shí)體開放的類型導(dǎo)致人工標(biāo)注語料的代價(jià)太大。本文首先基于雙語平行語料和英語句法分析器自動標(biāo)注了一個(gè)漢語專有名詞語料,另外基于漢語依存樹庫生成了一個(gè)名詞復(fù)合短語語料,然后使用自學(xué)習(xí)的方法將這兩部分語料融合形成命名實(shí)體邊界識別語料,同時(shí)訓(xùn)練邊界識別模型。此外,本文還針對開放域命名實(shí)體的特點(diǎn),提出了動詞依存關(guān)系、命名實(shí)體構(gòu)成模式等更加豐富的特征。實(shí)驗(yàn)結(jié)果表

5、明自學(xué)習(xí)的方法可以提高邊界識別的準(zhǔn)確率和召回率,其中使用的特征對于提高邊界識別效果皆有幫助。
  第三部分為基于多信息源的開放域命名實(shí)體類別獲取。命名實(shí)體的上位詞通常表明了其類別信息。本文在Web搜索結(jié)果、在線百科和命名實(shí)體字面等多個(gè)信息源中挖掘命名實(shí)體的上位詞候選,然后設(shè)計(jì)了一組豐富的特征并在一個(gè)自動構(gòu)建的語料上訓(xùn)練模型對候選進(jìn)行排序,從而獲得了命名實(shí)體的類別。實(shí)驗(yàn)結(jié)果表明多個(gè)信息來源可以相互補(bǔ)充和驗(yàn)證,有利于命名實(shí)體類別的挖掘

6、和排序。此外,本文還對上位詞排序的特征進(jìn)行了評測。
  第四部分為基于詞匯分布表示的開放域命名實(shí)體類別層次化。一個(gè)命名實(shí)體可能屬于多個(gè)不同粒度的類別,這些類別之間通常存在上下位關(guān)系。為此,在獲取命名實(shí)體類別的基礎(chǔ)上,本文進(jìn)一步挖掘類別之間的上下位層次化關(guān)系。本文利用詞匯的分布表示,學(xué)習(xí)從下位詞到上位詞的分段映射矩陣,來判斷給定的詞對是否具有上下位關(guān)系。實(shí)驗(yàn)證明本文采用的基于詞匯分布表示的方法對于開放域命名實(shí)體類別的層次化是行之有效

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論