開放域命名實(shí)體識別及其層次化類別獲取.pdf

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-05 格式：pdf 頁數(shù)：131 大?。?.06MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

已閱讀1頁，還剩130頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、命名實(shí)體識別的目標(biāo)是識別文本中事物的名稱并分類。傳統(tǒng)命名實(shí)體識別任務(wù)主要識別人名、地名和機(jī)構(gòu)名等。但由于傳統(tǒng)命名實(shí)體的類別有限，不能完全滿足自然語言處理領(lǐng)域其他任務(wù)的需求。因此本文重點(diǎn)研究開放域命名實(shí)體的識別和層次化類別獲取，旨在為信息抽取、信息檢索、開放域問答、機(jī)器翻譯等自然語言處理任務(wù)提供支持。
　　開放域命名實(shí)體相對傳統(tǒng)命名實(shí)體有兩個(gè)主要特點(diǎn)：類別更多且不固定；類別更細(xì)且有層次。這導(dǎo)致開放域命名實(shí)體的識別面臨無法標(biāo)注訓(xùn)練語料

2、、同一個(gè)命名實(shí)體屬于多個(gè)不同粒度的類別等挑戰(zhàn)，無法應(yīng)用傳統(tǒng)的序列標(biāo)注的方法來解決。本文將開放域命名實(shí)體識別任務(wù)分為兩個(gè)方面：邊界識別和類別獲取。邊界識別面臨的主要問題是訓(xùn)練語料的構(gòu)建以及有效利用。類別獲取面臨的主要問題是類別體系不可預(yù)先確定以及類別的層次化。本文的研究工作旨在解決上述兩個(gè)問題，主要研究內(nèi)容包括以下四個(gè)方面：
　　第一部分為基于英漢雙語平行語料自動構(gòu)建漢語命名實(shí)體識別語料。命名實(shí)體識別訓(xùn)練語料不足會導(dǎo)致的領(lǐng)域過擬合問

3、題，而人工標(biāo)注的成本太高，本文使用雙語平行語料將英語命名實(shí)體自動識別的標(biāo)記映射到漢語端，從而實(shí)現(xiàn)漢語命名實(shí)體語料的自動標(biāo)注。然后進(jìn)一步使用多種策略綜合篩選高質(zhì)量的實(shí)例作為訓(xùn)練語料。實(shí)驗(yàn)證明這種方法可以自動構(gòu)建大量的漢語命名實(shí)體識別訓(xùn)練語料，在該語料上訓(xùn)練的模型與人工標(biāo)注語料上訓(xùn)練的模型性能接近，并且通過和人工標(biāo)注的語料融合可以提高命名實(shí)體識別的準(zhǔn)確率和召回率。此外，我們還詳細(xì)分析了平行語料規(guī)模和來源對命名實(shí)體識別效果的影響。
　　

4、第二部分為基于自學(xué)習(xí)的開放域命名實(shí)體邊界識別。漢語開放域命名實(shí)體識別尚缺乏訓(xùn)練語料，而命名實(shí)體開放的類型導(dǎo)致人工標(biāo)注語料的代價(jià)太大。本文首先基于雙語平行語料和英語句法分析器自動標(biāo)注了一個(gè)漢語專有名詞語料，另外基于漢語依存樹庫生成了一個(gè)名詞復(fù)合短語語料，然后使用自學(xué)習(xí)的方法將這兩部分語料融合形成命名實(shí)體邊界識別語料，同時(shí)訓(xùn)練邊界識別模型。此外，本文還針對開放域命名實(shí)體的特點(diǎn)，提出了動詞依存關(guān)系、命名實(shí)體構(gòu)成模式等更加豐富的特征。實(shí)驗(yàn)結(jié)果表

5、明自學(xué)習(xí)的方法可以提高邊界識別的準(zhǔn)確率和召回率，其中使用的特征對于提高邊界識別效果皆有幫助。
　　第三部分為基于多信息源的開放域命名實(shí)體類別獲取。命名實(shí)體的上位詞通常表明了其類別信息。本文在Web搜索結(jié)果、在線百科和命名實(shí)體字面等多個(gè)信息源中挖掘命名實(shí)體的上位詞候選，然后設(shè)計(jì)了一組豐富的特征并在一個(gè)自動構(gòu)建的語料上訓(xùn)練模型對候選進(jìn)行排序，從而獲得了命名實(shí)體的類別。實(shí)驗(yàn)結(jié)果表明多個(gè)信息來源可以相互補(bǔ)充和驗(yàn)證，有利于命名實(shí)體類別的挖掘

6、和排序。此外，本文還對上位詞排序的特征進(jìn)行了評測。
　　第四部分為基于詞匯分布表示的開放域命名實(shí)體類別層次化。一個(gè)命名實(shí)體可能屬于多個(gè)不同粒度的類別，這些類別之間通常存在上下位關(guān)系。為此，在獲取命名實(shí)體類別的基礎(chǔ)上，本文進(jìn)一步挖掘類別之間的上下位層次化關(guān)系。本文利用詞匯的分布表示，學(xué)習(xí)從下位詞到上位詞的分段映射矩陣，來判斷給定的詞對是否具有上下位關(guān)系。實(shí)驗(yàn)證明本文采用的基于詞匯分布表示的方法對于開放域命名實(shí)體類別的層次化是行之有效

眾賞文庫> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

開放域命名實(shí)體識別及其層次化類別獲取.pdf

文檔簡介

溫馨提示

最新文檔

評論

開放域命名實(shí)體識別及其層次化類別獲取.pdf

文檔簡介

溫馨提示

最新文檔

評論

免費(fèi)下載