提取商品特征和情感詞的語義約束LDA模型研究.pdf_第1頁
已閱讀1頁,還剩131頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、隨著互聯(lián)網(wǎng)的普及和在線購物所帶來的便捷性,網(wǎng)絡(luò)購物呈現(xiàn)出了前所未有的爆發(fā)式增長勢頭,導(dǎo)致購物網(wǎng)站上產(chǎn)生了大量的商品評論文本數(shù)據(jù)。利用自然語言文本處理中的情感分析技術(shù),可以從這些海量的文本數(shù)據(jù)中獲得有用的評價知識。情感分析可以獲取評價對象的情感極性分類,從粒度上可包括三個層面:(1)文檔級別的情感分析;(2)句子級別的情感分析;(3)特征級別的情感分析。文檔級別和句子級別的情感分析可以獲取評價對象的粗粒度情感極性,難以滿足人們進一步了解更

2、細(xì)致的商品部件及屬性評價情況的要求。要獲取商品局部部件及屬性的情感極性分類知識,需要對商品評論進行特征級別的情感分析,即細(xì)粒度的情感分析,其核心任務(wù)是有效提取特征詞和情感詞以及發(fā)現(xiàn)它們之間的關(guān)聯(lián)性。相對于粗粒度的情感分析,細(xì)粒度的情感分析任務(wù)更具有挑戰(zhàn)性。
  商品評論是用自然語言表達的非結(jié)構(gòu)化的文本數(shù)據(jù),其語義關(guān)系和語法結(jié)構(gòu)具有隨意性,并且數(shù)據(jù)量非常龐大,給特征詞和情感詞的提取帶來了極大的困難。需要綜合運用自然語言理解及數(shù)據(jù)挖掘

3、技術(shù),在有效降低文本數(shù)據(jù)維度的基礎(chǔ)上,才有可能實現(xiàn)細(xì)粒度的特征詞和情感詞挖掘。由于潛在狄利克雷分配(latentDirichlet allocation,LDA)主題模型可以對文本數(shù)據(jù)進行降維,實現(xiàn)大規(guī)模文本的主題詞提取,同時利用主題聚類功能來自動獲取詞語間的關(guān)聯(lián)關(guān)系,LDA主題模型在特征詞和情感詞的提取研究中受到了極大的關(guān)注,并得到了廣泛的應(yīng)用。
  特征級別的情感分析需要更多地發(fā)現(xiàn)局部結(jié)構(gòu)關(guān)系中的特征詞和情感詞,這些詞語相對于

4、全局特征詞和全局情感詞來說詞頻更低,并且它們之間的關(guān)系隱含在句子、短語等結(jié)構(gòu)中,尤其在具有復(fù)雜詞語語義關(guān)系的中文商品評論中,局部特征詞和局部情感詞的提取難度明顯要高于全局特征詞和全局情感詞。現(xiàn)有LDA主題模型偏向于發(fā)現(xiàn)全局特征詞和全局情感詞,在主題-詞語的概率分配過程中沒有考慮詞語間的語義關(guān)系,導(dǎo)致一些低頻的、具有隱含語義關(guān)系的特征詞和情感詞提取的準(zhǔn)確率和召回率不高,主要表現(xiàn)在:
  (1)難以提取低詞頻特征詞和情感詞。LDA主題

5、模型偏向于發(fā)現(xiàn)高頻的主題詞,導(dǎo)致了詞頻相對較低的特征詞和情感詞的提取率不高。在中文商品評論中,經(jīng)常會出現(xiàn)多個不同詞語描述同一特征,其中低詞頻特征詞在主題-詞語概率分配中概率較低,往往被忽略;一些僅修飾同一類特征的專屬情感詞由于詞頻較低,也不容易被LDA識別。
  (2)難以發(fā)現(xiàn)低共現(xiàn)頻率特征詞和情感詞的關(guān)系。LDA主題模型善于發(fā)現(xiàn)具有較高共現(xiàn)頻率的詞語關(guān)系,而難以發(fā)現(xiàn)一些真實存在的但低頻共現(xiàn)的特征詞-情感詞匹配關(guān)系。在中文商品評論

6、中,有些情感詞只用來修飾某一個或某一類特征,這類情感詞與特征詞的共現(xiàn)關(guān)系容易被其他高頻情感共現(xiàn)關(guān)系所湮沒,使得LDA模型難以發(fā)現(xiàn)這類關(guān)系;同時LDA也很難提取一些僅包含情感詞的無特征詞語句子中的特征詞-情感詞隱含匹配關(guān)系。
  (3)全局特征詞對局部特征詞主題分配的干擾。由于LDA模型對高頻全局特征詞較敏感,容易將全局特征詞以較高概率分配到不同主題下,而影響了其他相對低頻的局部特征詞的主題分配,造成高詞頻的全局特征詞的重復(fù)提取而低

7、詞頻的局部特征詞卻難以被LDA識別。
  (4)難以識別特征詞和情感詞之間的語義關(guān)系。LDA模型是詞袋型概率生成模型,提取的詞語關(guān)聯(lián)性主要體現(xiàn)在文檔級別的共現(xiàn),難以更深入地理解詞語之間的語義關(guān)聯(lián),從而可能將文檔共現(xiàn)頻率高但無語義關(guān)聯(lián)的詞語分配到同一主題,或?qū)⒐铂F(xiàn)頻率低但語義關(guān)聯(lián)強的詞語分配到不同主題,造成提取的主題詞不能真實反映特征詞和情感詞之間的語義關(guān)系。
  為了解決上述問題,實現(xiàn)細(xì)粒度的特征詞和情感詞提取,需要有指導(dǎo)地

8、進行主題詞挖掘,即利用先驗知識對主題模型進行約束,形成監(jiān)督效應(yīng)來提取符合挖掘目標(biāo)的主題詞??紤]到LDA模型的語義理解能力的欠缺,首先從語義關(guān)系的發(fā)現(xiàn)來探索詞語間的關(guān)聯(lián)性,然后利用關(guān)聯(lián)性知識對主題模型形成約束機制,更多地發(fā)現(xiàn)特征詞和情感詞之間的隱含關(guān)系。引入詞語之間的語義關(guān)系約束機制可以在保留LDA主題模型的大規(guī)模文本主題詞提取功能的同時,提升主題模型的語義理解能力,提高識別局部詞語間關(guān)聯(lián)關(guān)系的能力,更多地提取細(xì)粒度的特征詞和情感詞。主要

9、研究內(nèi)容有:
  (1)中文商品評論語義關(guān)系的獲取研究。結(jié)合中文商品評論文本的特點,從句法依存、詞義理解和語境相關(guān)等多角度獲取語義關(guān)系,并將語義關(guān)系轉(zhuǎn)化為LDA模型容易識別和方便嵌入的方式,為主題模型的改進提供有效的語義約束先驗知識。
  (2)語義關(guān)系在LDA模型中的嵌入機制研究。在保留LDA模型主題詞提取的基礎(chǔ)上,對語義約束知識如何嵌入到主題模型進行研究。在主題的概率分配關(guān)系中充分反映不同層級的語義隸屬關(guān)系,并為提取符合

10、語義要求的特征詞和情感詞提供指導(dǎo),解決已有主題模型提取的主題詞不能完全符合語義要求的問題。
  (3)語義關(guān)系對LDA模型的層級分配關(guān)系研究。由于語義關(guān)系的引入,LDA模型不同層次之間的分配關(guān)系將產(chǎn)生變化。在原有主題模型層級分配關(guān)系的基礎(chǔ)上,加入語義先驗知識來影響其概率分布關(guān)系,主要研究的層級分配關(guān)系包括:文檔-情感、情感-主題和主題-詞語的分配關(guān)系。
  (4)語義約束主題模型的構(gòu)建研究。將語義約束知識引入到LDA模型,對

11、LDA進行擴展的同時形成了弱監(jiān)督效應(yīng)。已有LDA模型的總體結(jié)構(gòu)將產(chǎn)生變化,反映在層級的改變以及不同層級的隸屬關(guān)系變化上。根據(jù)不同的語義任務(wù)提取需求,結(jié)合多種語義約束關(guān)系的獲取及嵌入,在有效進行LDA模型擴展的基礎(chǔ)上,對單獨特征詞提取、特征詞和情感詞同時提取以及情感極性分類三類模型的構(gòu)建進行研究。
  本文的創(chuàng)新性工作主要體現(xiàn)在:
  (1)提出了商品評論文本的詞語語義關(guān)系獲取方法。針對中文商品評論的特點,從句法分析、詞義理解

12、和語境相關(guān)等多角度設(shè)計了特征詞和情感詞之間的語義關(guān)系發(fā)現(xiàn)規(guī)則,并考慮語義關(guān)系作為約束先驗知識加入到LDA模型的方便性,獲取的詞語關(guān)系能夠較好地反映中文商品評論中特征詞-特征詞、特征詞-情感詞和情感詞-情感詞之間的語義關(guān)聯(lián)。
  (2)設(shè)計了語義關(guān)系對LDA主題模型的約束機制。包括兩個方面:一是設(shè)計了語義關(guān)系約束下的主題-詞語分配機制,實現(xiàn)主題下細(xì)粒度特征詞和情感詞的有效聚合和區(qū)分;二是設(shè)計了全局特征詞主題分配約束機制,減少全局特征

13、詞對局部詞語分配的干擾,盡可能多地發(fā)現(xiàn)局部特征詞和局部情感詞。語義約束可以指導(dǎo)LDA進行主題-詞語的概率分配,影響主題下詞語的聚合度和分離度,彌補LDA對于語義關(guān)系理解的不足。
  (3)構(gòu)建了4個帶語義約束的LDA主題模型。對LDA模型進行了擴展,在語義先驗知識的指導(dǎo)下進行細(xì)粒度主題詞提取,提出了WC-LDA、AC-LDA、SRC-LDA和SWS-LDA模型。在保留LDA主題詞提取特點的基礎(chǔ)上,對LDA結(jié)構(gòu)進行了改進,利用詞語間

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論