版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、中文文本自動分詞與標(biāo)注 第8章 漢語詞義自動標(biāo)註技術(shù),報(bào)告人:劉謦儀(J94922018),2024/3/17,2,綱要,詞義標(biāo)注詞義排歧詞義自動標(biāo)注 與 詞義自動排歧 語言的編碼漢字字義組合結(jié)構(gòu)基於字義排歧的模型自組織的漢語詞義排歧方法結(jié)語,2024/3/17,3,詞義標(biāo)注,對文本中的每個(gè)詞根據(jù)其所屬之上下文給出它的語義編碼指用非文字的東西來表示文字消息的內(nèi)容,用圖畫、樂譜等都可以進(jìn)行語義編碼。詞典釋義文本中的某個(gè)
2、「義項(xiàng)號」義類詞典中相映的「義類編碼」,,2024/3/17,4,詞義排歧,處理一詞多義現(xiàn)象例:大學(xué)是教育機(jī)構(gòu)是一本古書,博士既是官名,又是博學(xué)多才的人,又是師傅,還是一種學(xué)位的名稱。 使用詞義標(biāo)注文本可提高檢索時(shí)的查全率和查準(zhǔn)率。有利於選擇可以恰當(dāng)表達(dá)語句中詞的目標(biāo)詞,以提高翻譯的準(zhǔn)確性。建立基於語義類的語言模型,為語音識別、手寫體識別和音字轉(zhuǎn)換提供幫助。,2024/3/17,5,詞義自動標(biāo)注 ( Word Sense Ta
3、gging ),也稱為詞義自動排歧 ( Word Sense Disambiguation )計(jì)算機(jī)運(yùn)用邏輯運(yùn)算與推理機(jī)制,對出現(xiàn)在一定上下文中詞語的語義進(jìn)行正確的判斷,自動確定其正確的義項(xiàng)並加以標(biāo)注的過程。多義詞排歧主要依據(jù)該多義詞出現(xiàn)的上下文,排歧的過程就是建立他們之間的聯(lián)繫過程,這種聯(lián)繫則是詞語間的語義聯(lián)繫。常見方法人工智能法、基於詞典的方法、基於語料庫的方法,2024/3/17,6,語言的編碼,分為語音編碼和語義編碼兩
4、大類語音編碼:用符號代表語音,一種語言區(qū)別於其他語言的根本區(qū)別就是其不同的語音音素編碼。就英語而言有英音,美音,澳音,新西蘭音等。語義編碼:是用符號代表語義,關(guān)注的是語言所能表達(dá)的意義,每種語言都有自己的語義系統(tǒng)。漢語和英語屬於不同的語系,前者屬於漢藏語系,後者屬於印歐語系。,2024/3/17,7,語言的編碼,漢語語義編碼的基本符號是“字” 漢語的語義主要附著在“字”上。字義排歧是詞義標(biāo)注之突破點(diǎn)。濃縮形音義,多為形聲字,表音
5、亦表意,望文生義,如:吠。大量同音字、同音詞語,化成書面多可消除歧義。單字多義項(xiàng)者占53.6%(如「打」字之義項(xiàng)數(shù)為26) ;詞組/合成詞多義項(xiàng)者僅占0.46%。,2024/3/17,8,漢字字義組合結(jié)構(gòu),向心性字組 Vs. 離心性字組冰山,青山,火山,高山(核心字在後) Vs. 山峰,山城,山溝,山村(核心字在前) 並列字組 Vs. 主從字組關(guān)閉,左右,上下,陰陽(二字相同相近相反) Vs. 火車,汽車,黑板,白版(前字從,
6、後字主)合義(國+務(wù)→國務(wù))33%、加義(景+物→可供觀賞的景緻和事務(wù))56.7%、同義(聲+音→聲;音)、偏義(厚+度→厚≠度;容+易→易≠容)、轉(zhuǎn)義(目+光 = 眼睛+光線 → 見識) 少量字義推大量詞義成為可能!,2024/3/17,9,基於字義排歧的模型,資源:三臺機(jī)器 + 兩部詞典MRD-1讀入<現(xiàn)代漢語通用字典>MRD-2讀入<同義詞詞林>MTD由MDR-1透過機(jī)器自動生成以字義定詞義的語義標(biāo)注方式準(zhǔn)確率在80%
7、以上遭遇困難處二字詞之多義詞排歧單字本身意義抽象、廣泛、模糊,成詞時(shí)描述也困難如何將詞義間之關(guān)係建構(gòu)成完整的意念表達(dá)仍須努力,2024/3/17,10,基於字義排歧的模型-MRD1說明,MRD-1讀入<現(xiàn)代漢語通用辭典>,用來作為標(biāo)注每個(gè)漢字的義項(xiàng)號?!按?da3)”在MRD-1中有25個(gè)義項(xiàng),分別為打-B01:毆打,攻打;打-B02:用手或器具撞擊物體;打-B03:做,從事;打-B04:表示身體上的某些動作;……打-B25
8、:器皿,蛋類因撞擊而破碎。“打(da2)”在MRD-1中記為打-A01:量詞,12個(gè)叫一打。,2024/3/17,11,基於字義排歧的模型-MRD2說明,MRD-2讀入<同義詞詞林>,編排方式以詞義為主兼顧詞類詞,多義詞則分別收入不同詞群以12個(gè)語義場(人,物,時(shí)間,空間,抽象事物,性質(zhì),動作,心理,活動狀態(tài),關(guān)聯(lián),助詞)之不同層次與大小來分類。各語義場間互相有著同義(好看Vs.華麗) 、反義(善良Vs.兇惡) 、類義(大雨Vs
9、.暴雨) 、聯(lián)義(同情Vs.同情心;哭Vs.淚人兒)等語義關(guān)係。同一個(gè)語義場包含”1.同義;2.反義;3.類義” 三種語義關(guān)係跨語義場就是聯(lián)義,2024/3/17,12,基於字義排歧的模型-MTD說明,MTD由MDR-1透過機(jī)器自動生成詞組之義項(xiàng)代碼,如”打-B02 鼓-A01”打-B01:毆打,攻打→打倒∣打擊∣打架∣… ∣打手打-B02:用手或器具撞擊物體→打鼓∣打火∣… ∣敲鑼打鼓鼓-A01:打擊樂器→鼓板∣鼓槌∣打鼓
10、∣…∣重振旗鼓鼓-A02:發(fā)動,激起→鼓動∣鼓舞∣… ∣鼓足幹勁,,,,,,2024/3/17,13,自組織的漢語詞義排歧方法-步驟1,以<現(xiàn)代漢語辭海>提供的搭配實(shí)例作為多義詞的初始搭配知識庫,無需人工標(biāo)注初始語料,用適當(dāng)?shù)慕y(tǒng)計(jì)和自組織方法做訓(xùn)練並自動擴(kuò)大搭配集。在初始搭配知識庫中,每個(gè)條目的包含訊息可描述為,2024/3/17,14,自組織的漢語詞義排歧方法-步驟2,在學(xué)習(xí)過程中逐漸增大上下文窗口長度來保證高可靠性。選擇上下文
11、的訊息時(shí)應(yīng)儘量選取與當(dāng)前詞存在語法有關(guān)係的那些詞,濾掉上下文中多數(shù)與其不存在語法關(guān)係的詞。在給定的多義詞上下文內(nèi),尋找與初始搭配庫匹配的搭配實(shí)例,若匹配成功則標(biāo)上對應(yīng)的義項(xiàng)標(biāo)記。初始標(biāo)注時(shí)限定上下文窗口長度為2,表選擇該詞的前後兩個(gè)詞。,2024/3/17,15,自組織的漢語詞義排歧方法-步驟3,透過建立搭配統(tǒng)計(jì)表來實(shí)現(xiàn)多元詞義歧義的排歧按一定原則從與料庫中取得排歧過程中需要的各種可能搭配和統(tǒng)計(jì)數(shù)據(jù)。每個(gè)條目包含的訊息可描述為:
12、註:頻次表示在本次標(biāo)注語料中該搭配出現(xiàn)的次數(shù),根據(jù)統(tǒng)計(jì)數(shù)據(jù)自動調(diào)整學(xué)習(xí)進(jìn)度,逐漸增加上下窗口長度來學(xué)到儘可能多的搭配。,2024/3/17,16,結(jié)語,任何詞義消歧系統(tǒng)都離不開詞義消歧時(shí)所用知識的資料源,詞義消歧知識庫的質(zhì)量已成為詞義消歧系統(tǒng)成敗的關(guān)鍵。 由於詞典和語料庫中不可能包括每個(gè)詞的所有搭配實(shí)例。而有些低頻詞,在語料中出現(xiàn)次數(shù)也不多,很難搜集到它們的上下文環(huán)境,因而知識獲取中普遍存在著資料稀疏以及自動學(xué)習(xí)演算法的參數(shù)空間
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中文文本分詞及詞性標(biāo)注自動校對方法研究.pdf
- 漢語自動分詞和詞性標(biāo)注研究.pdf
- 中文文本自動分詞技術(shù)與算法研究.pdf
- 先秦漢語自動分詞及詞性標(biāo)注研究.pdf
- 基于機(jī)器學(xué)習(xí)的漢語詞性自動標(biāo)注系統(tǒng).pdf
- 商務(wù)館學(xué)漢語詞典詞義理據(jù)標(biāo)注研究
- 面向文本的自動語義標(biāo)注技術(shù)研究與實(shí)現(xiàn).pdf
- 中文文本自動分類系統(tǒng)研究—漢語分詞及分類器的設(shè)計(jì).pdf
- 基于漢語構(gòu)架網(wǎng)的語義角色自動標(biāo)注——自動標(biāo)注算法研究畢業(yè)論文
- 基于統(tǒng)計(jì)的漢語詞性自動標(biāo)注的若干分析與實(shí)驗(yàn)研究.pdf
- 32731.中文文本空間關(guān)系標(biāo)注方法研究
- 漢語框架語義角色的自動標(biāo)注技術(shù)研究.pdf
- 自動圖像標(biāo)注論文基于機(jī)器學(xué)習(xí)算法及自動圖像標(biāo)注
- 漢英平行語料庫的詞義自動標(biāo)注方法研究.pdf
- 基于最大熵原理的漢語詞義消歧與標(biāo)注語言模型研究.pdf
- 圖像自動標(biāo)注與檢索技術(shù)研究.pdf
- 復(fù)雜矢量圖形文本標(biāo)注自動定位方法.pdf
- 中文文本自動分類技術(shù)的研究與改進(jìn).pdf
- 中文文本自動校對系統(tǒng).pdf
- 中文文本自動查錯(cuò)研究.pdf
評論
0/150
提交評論