版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、文本的表征與文本間的語(yǔ)義相似度計(jì)算是自然語(yǔ)言處理領(lǐng)域里十分重要的基礎(chǔ)性研究課題,它們直接影響著諸如文本自動(dòng)分類、信息檢索、機(jī)器翻譯、問(wèn)答系統(tǒng)等多個(gè)應(yīng)用系統(tǒng)的效果。傳統(tǒng)的機(jī)器學(xué)習(xí)方法僅僅使用了文本本身所提供的信息來(lái)建模和運(yùn)算,面對(duì)復(fù)雜多變的網(wǎng)絡(luò)用語(yǔ)和短文本,僅僅依靠文本自身所提供的信息來(lái)理解文本語(yǔ)義信息變得越來(lái)越困難。這是因?yàn)閭鹘y(tǒng)的機(jī)器學(xué)習(xí)方法大多數(shù)是基于詞袋(Bag of words)模型,即依靠詞或短語(yǔ)之間的匹配,面對(duì)詞匯的多樣性、多
2、義性,它就顯得無(wú)能無(wú)力了。此外,隨著互聯(lián)網(wǎng)的發(fā)展,人類的語(yǔ)言生活也發(fā)生了很大變化,短文本占據(jù)了網(wǎng)絡(luò)用語(yǔ)的大量比例,而這些短文本所能提供的詞匯特征信息又非常之少,不利于傳統(tǒng)的模型表征。
借助于文本以外的知識(shí)擴(kuò)展文本的信息,是解決以上問(wèn)題的一個(gè)主要途徑,然而,現(xiàn)有的模型并沒(méi)有能充分利用外部知識(shí)所提供給我們的語(yǔ)義信息。以維基百科為例,大部分模型忽略了不同詞條之間的語(yǔ)義聯(lián)系和用戶提供的標(biāo)注信息,然而,有些時(shí)候,這些信息對(duì)于理解文本的語(yǔ)
3、義、獲取信息的增益非常重要。因此,設(shè)計(jì)一個(gè)更為合理的知識(shí)表示模型來(lái)更加充分的利用這些信息,可以說(shuō)是自然語(yǔ)言處理領(lǐng)域一個(gè)亟待解決的研究課題。
本文從以上問(wèn)題出發(fā),提出了一個(gè)新的知識(shí)表示模型,該模型彌補(bǔ)了同類模型的不足之處,既考慮進(jìn)了知識(shí)之間的相互聯(lián)系,也使用了用戶標(biāo)注的額外信息。
概括起來(lái),本文所做的工作主要有以下幾點(diǎn):
第一,本文提出了一個(gè)新的知識(shí)表示模型,在該模型中,每個(gè)知識(shí)不再被當(dāng)作語(yǔ)義獨(dú)立的個(gè)體看待,
4、不同的知識(shí)根據(jù)它們之間的語(yǔ)義相似度被聯(lián)系到了一起,從宏觀角度看,所有知識(shí)通過(guò)這些連接關(guān)系,構(gòu)成了一張圖的形狀。以維基百科為例,維基百科中的每一個(gè)條目被視為一個(gè)概念,它們被當(dāng)作概念圖中的節(jié)點(diǎn)。概念之間的語(yǔ)義聯(lián)系構(gòu)成了它們之間的邊。邊的權(quán)值表示概念之間的語(yǔ)義相似程度,它的值是根據(jù)維基百科概念的正文內(nèi)容、標(biāo)題、錨文本、超鏈接、類別標(biāo)簽等多個(gè)信息綜合衡量得出的,本文稱此結(jié)構(gòu)為概念圖。這里需要特別指出,雖然本文使用了維基百科作為外部知識(shí)庫(kù)來(lái)建模,
5、但本文所提的模型不僅限于它,該模型同樣適用于其它符合條件的外部知識(shí)庫(kù)。
第二,本文提出了一種基于概念的文本表征方式。本文在構(gòu)建的概念圖模型上設(shè)計(jì)了一套文本映射到概念的方法,成功把文本從詞頻向量空間轉(zhuǎn)換到概念空間,增大了文本特征的粒度,從而解決了同義詞等語(yǔ)言現(xiàn)象給傳統(tǒng)文本表征方式帶來(lái)的困擾。此外,本文還提出了利用新的文本表征模型來(lái)計(jì)算文本的語(yǔ)義相似度的方法。我們首先通過(guò)簡(jiǎn)單的詞義相似度比較,將文本映射到一組概念節(jié)點(diǎn)上。然后根據(jù)節(jié)
6、點(diǎn)之間的語(yǔ)義聯(lián)系,對(duì)映射到圖中的節(jié)點(diǎn)做調(diào)整,找出最能代表文本語(yǔ)義的一組節(jié)點(diǎn)。最后,通過(guò)比較概念向量之間的語(yǔ)義相似度來(lái)計(jì)算文本之間的語(yǔ)義相似度。
第三,為了方便地將本文所提出的概念圖模型運(yùn)用到實(shí)際應(yīng)用中。本文提出了一種針對(duì)語(yǔ)料特征的靈活建模方法。首先,對(duì)需要處理的語(yǔ)料進(jìn)行隨機(jī)采樣。然后,采用多種特征抽取的方法抽取出實(shí)驗(yàn)語(yǔ)料的特征,并根據(jù)這些抽取出的特征,有針對(duì)性地選取與實(shí)驗(yàn)語(yǔ)料語(yǔ)義接近的一部分概念來(lái)構(gòu)造圖模型,從而成功地將概念圖
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于中文維基百科的概念相關(guān)詞群研究.pdf
- 基于維基百科的微博文本語(yǔ)義概念擴(kuò)展研究.pdf
- 基于維基百科的語(yǔ)義比較.pdf
- 基于維基百科的網(wǎng)絡(luò)安全課程本體構(gòu)建及應(yīng)用研究
- 基于中文維基百科的文本擴(kuò)充.pdf
- 基于維基百科的搜索結(jié)果挖掘.pdf
- 基于維基百科的《網(wǎng)絡(luò)安全》課程本體構(gòu)建及應(yīng)用研究.pdf
- 基于維基百科的人物關(guān)系抽取研究.pdf
- 基于維基百科的知識(shí)抽取和重用.pdf
- 水楊酸維基百科
- 維基百科不自由
- 基于維基百科的語(yǔ)義相關(guān)度計(jì)算研究.pdf
- 基于維基百科構(gòu)建語(yǔ)義知識(shí)庫(kù)及其在文本分類領(lǐng)域的應(yīng)用研究.pdf
- 中文維基百科類別推薦的研究.pdf
- 維基百科在IR4QA系統(tǒng)中的應(yīng)用研究.pdf
- 關(guān)于維基百科內(nèi)容質(zhì)量的研究.pdf
- 維基百科上的語(yǔ)義搜索.pdf
- 基于維基百科的垂直搜索查詢擴(kuò)展問(wèn)題研究.pdf
- 基于中文維基百科的全文語(yǔ)義標(biāo)注系統(tǒng).pdf
- 基于中文維基百科的信息檢索技術(shù)研究.pdf
評(píng)論
0/150
提交評(píng)論