版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、命名實體識別是將文本中的元素分成預先定義的類,如人名、地名、組織機構名、時間、貨幣等等。作為自然語言的承載信息單位,命名實體識別屬于文本信息處理基礎的研究領域,是信息抽機構取、信息檢索、機器翻譯、問答系統(tǒng)等多種自然語言處理技術中必不可少的組成部分。在實體識別領域,國外科研機構針對英文實體的識別已取得了突出的成績,識別準確度達到90%以上。由于中文在分詞及語義方面存在著眾多的困難,國內針對該問題還處于研究和探索階段。所以針對中文實體及關系
2、的識別的研究有著重大的意義。
論文的工作主要體現(xiàn)在以下幾個方面:
第一,研究分析了用于實體識別及實體關系識別的眾多的機器學習模型,包括隱馬爾科夫模型、最大熵模型以及支持向量機模型。分析這些模型在實體識別方式方面的優(yōu)勢和缺陷,并通過分析發(fā)現(xiàn)新興的“條件隨機場模型”是一種在結構上繼承了經(jīng)典模型的優(yōu)點,并克服了在識別中不能依賴周邊信息以及標記偏置等缺陷的模型。國內外的相關實驗也表明在自然語言處理,特別是實體識別領域,條件隨
3、機場模型有著更加出色的發(fā)揮。故而本系統(tǒng)選用其作為實體及實體關系識別的算法模型。
第二,由于條件隨機場模型擁有可進行長距離信息依賴的特點,可以充分利用當前詞前后詞的屬性對當前詞進行更加準確的判斷,因此本論文將該模型選擇為本課題研究和引用的模型。而“條件隨機場模型”也存在著“過于依賴特征的選取”的弊端,即實體識別程度的好壞在很大程度上取決于對于特征向量選取的好壞?,F(xiàn)階段還沒有針對中文特征選取的相關規(guī)則,本文將針對該系統(tǒng)語料集的特點
4、,使用由簡到繁的特征選取方式構建特征模板。因此對于特征的選取及特征模板的構建是本系統(tǒng)的重點工作。
在實體識別階段構建的特征模板為:1)選取詞語本身及詞性作為特征構建了基本特征模板;2)選取實體特征,通過語料轉換構建了實體特征模板;3)選取實體指示詞構建了指示詞模板,并在其中加入了相關的專業(yè)詞典信息;4)通過特征的組合構建了組合特征模板。在實體關系識別階段除了選取了基本特征、詞性特征外,本文還提出了將句法結構作為重要的特征用于構
5、建特征模板。通過對句法結構的分析,選取共同節(jié)點特征、依賴動詞特征、實體-實體路徑特征以及實體-依賴動詞路徑特征作為實體關系識別的重要特征。
第三,本系統(tǒng)以條件隨機場模型為框架,使用1998年人民日報語料做為訓練集,完成模型的訓練工作。在網(wǎng)頁解析方面,提出了一種結合HTMLParser的技術將涉及《天龍八部》小說人物的百度詞條中的正文信息進行了提取,生成測試集。使用測試集進行實體識別及實體關系識別的實驗,數(shù)據(jù)表明本文提出的特征模
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于條件隨機場的中文命名實體識別的研究與應用.pdf
- 基于條件隨機場的命名實體識別.pdf
- 基于條件隨機場的中文命名實體識別研究
- 基于條件隨機場的命名實體識別研究.pdf
- 基于條件隨機場的中文命名實體識別研究.pdf
- 基于條件隨機場的音樂領域命名實體識別.pdf
- 38059.基于條件隨機場的地理命名實體識別方法研究
- 基于條件隨機域的中文命名實體識別研究.pdf
- 中文命名實體識別的研究.pdf
- 基于規(guī)則和條件隨機場的中文命名實體識別方法研究.pdf
- 基于條件隨機場的互聯(lián)網(wǎng)文本命名實體識別研究.pdf
- 基于條件隨機場的中醫(yī)病歷命名實體抽取方法研究.pdf
- 命名實體識別研究及其應用.pdf
- 基于微博中嵌套命名實體識別的研究.pdf
- 命名實體識別及其關系抽取.pdf
- 基于命名實體識別的學科智能答疑模型研究.pdf
- 基于規(guī)則的命名實體識別研究.pdf
- 基于條件隨機場的實體提及識別研究.pdf
- 基于Stacking框架的命名實體識別.pdf
- 基于CRF的英文命名實體識別研究.pdf
評論
0/150
提交評論