版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、自然語言對象在很多情況下存在著語義上的相關(guān)關(guān)系,這種相關(guān)關(guān)系可以使多種研究問題受益,如自然語言處理、信息檢索、機器翻譯、自動問答,等等。語義相關(guān)計算是語義相關(guān)關(guān)系的量化手段,而語義相關(guān)關(guān)系的廣泛應用對語義相關(guān)計算算法在理論上、實踐上均提出了挑戰(zhàn),例如語言對象語義的模型化表示、語義相關(guān)計算模型的設(shè)計、信息來源與特征質(zhì)量的分析、針對問題場景的特殊形式語義相關(guān)性、計算方法的跨語言通用性,等等。
本文首先明確了“語義相關(guān)”的定義,以統(tǒng)
2、一的數(shù)學形式給出了語義相關(guān)計算的表示,并提出了研究中面臨的三個要點:語義連接的選擇、特征映射的設(shè)計,以及對比映射的設(shè)計。圍繞這些要點,本文針對詞匯級的語言對象,包括詞匯、命名實體,以及網(wǎng)頁搜索查詢,基于統(tǒng)計方法對語義相關(guān)計算問題展開研究。本文的研究工作組織為如下四部分。
針對詞匯語義相關(guān)度計算問題,研究異構(gòu)特征線索下相關(guān)度計算函數(shù)的設(shè)計問題。使用方式(上下文)上的近似性、語義關(guān)系上的關(guān)聯(lián)性均為詞匯語義相關(guān)度的重要指示。這兩類特
3、征線索的形式迥異,為了充分利用其中的指導信息,本文設(shè)計了一種語義關(guān)系增強的層次化上下文相似度算法,使用上下文相似度量化詞匯在語義關(guān)系上的關(guān)聯(lián)性,從而將兩類特征線索統(tǒng)一起來。實驗證明語義關(guān)系與上下文相似度的結(jié)合可以有效提高語義相關(guān)度計算結(jié)果與人工評價的一致性,而且本文提出的特征線索融合方法優(yōu)于簡單地疊加異構(gòu)特征的方法。
圍繞普通文本上的相關(guān)命名實體挖掘問題,研究如何在特定應用場景下有效表示語言對象的語義相關(guān)關(guān)系。本文提出,命名實
4、體之間的語義相關(guān)關(guān)系無法脫離其對應的客觀世界對象之間的關(guān)聯(lián)關(guān)系。本文通過考察命名實體的篇章級共現(xiàn)現(xiàn)象,量化了命名實體在事件中的語義互動強度。輔以上下文的相似度,以及行文上的近鄰度等特征,基于篇章級共現(xiàn)的相關(guān)命名實體挖掘結(jié)果在質(zhì)量上好于基于關(guān)系抽取的挖掘結(jié)果。
在知識庫支持的命名實體相關(guān)度計算問題中,研究在語言對象本身的統(tǒng)計特性較弱時,如何對其特征項賦權(quán)的問題。本文首次提出了基于實體-屬性-屬性值記錄的命名實體相關(guān)度計算方法。實
5、體-屬性-屬性值記錄由于受其內(nèi)在設(shè)計原則的影響,一些在常規(guī)文本中有效的統(tǒng)計方法無法直接應用。為此,本文提出通過查詢?nèi)罩局械挠脩襞d趣信息對命名實體的語義特征項進行賦權(quán)的方法。與基于知識庫內(nèi)部數(shù)據(jù)的統(tǒng)計方法相比,本文方法在相關(guān)實體推薦應用上達到了更好的準確率。此外,本文還討論了賦權(quán)策略在不同規(guī)模、質(zhì)量、領(lǐng)域的知識庫條目上的有效性,以及相關(guān)度計算函數(shù)應如何利用這種賦權(quán)結(jié)果。
以查詢語義相關(guān)性判斷問題為代表,研究語義相關(guān)計算策略的分析
6、與改進問題,包括特征的有效性問題和模型的適應性問題。查詢語義相關(guān)性判斷是對兩條網(wǎng)頁搜索查詢是否針對同一信息需求的判斷。不同用戶的搜索習慣有較大差異,這使得判斷模型所采用的特征在不同用戶上的有效性不同,并進一步需要判斷模型體現(xiàn)出對用戶個體差異的適應性。本文首先根據(jù)常見的兩類相關(guān)性線索——時間近鄰性、內(nèi)容相似性——設(shè)計了多種分類特征,并由此建立了有效的判斷模型。然后,本文通過獨立于具體模型的ROC曲線分析考察了諸特征的內(nèi)在判別能力,并根據(jù)分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于知網(wǎng)的詞匯語義計算研究及應用.pdf
- 基于知識整合的詞匯語義相似度計算方法研究.pdf
- 基于《知網(wǎng)》的詞匯語義相似度計算doc
- 中文詞匯語義相似度計算研究.pdf
- 基于漢語概念圖的詞匯語義相似度計算.pdf
- 基于詞匯語義樹的語義檢索排名算法.pdf
- 基于維基百科的語義相關(guān)度計算研究.pdf
- 詞語語義相關(guān)度計算研究.pdf
- 基于共振理論的詞匯相關(guān)性計算.pdf
- 基于上古文獻的詞匯級語義知識挖掘研究.pdf
- 六歲幼兒的詞匯統(tǒng)計及語義分類.pdf
- 跨語言詞匯語義相似度計算研究.pdf
- 基于概念格的語義相關(guān)度計算及應用.pdf
- 詞匯語義變化的認知研究.pdf
- 詞匯文化語義的認知研究.pdf
- 基于統(tǒng)計學習的圖像語義挖掘研究.pdf
- 基于詞匯集聚的網(wǎng)絡文本相關(guān)度計算.pdf
- 語義相關(guān)與語義無關(guān)的詞匯呈現(xiàn)方式對高中生二語詞匯習得的影響.pdf
- 基于知網(wǎng)語義相關(guān)度計算的漢語自動分詞方法的研究.pdf
- 基于語義的圖像檢索相關(guān)問題研究.pdf
評論
0/150
提交評論