中文微博細(xì)粒度情緒識(shí)別研究.pdf_第1頁
已閱讀1頁,還剩69頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、從本世紀(jì)初,文本情感研究逐漸成為信息抽取領(lǐng)域中的研究熱點(diǎn),獲得了越來越多的關(guān)注。特別是Web2.0技術(shù)的逐漸普及,微博因?yàn)橄⒑?jiǎn)短、發(fā)布便捷、實(shí)時(shí)交互等特點(diǎn)獲得了網(wǎng)民極高的喜愛度,廣大網(wǎng)民已經(jīng)從過去單純的信息獲取者變成網(wǎng)絡(luò)內(nèi)容的主要制造者。同時(shí),隨著自然語言處理和機(jī)器學(xué)習(xí)技術(shù)的不斷進(jìn)步和成熟,對(duì)微博這種主觀性短文本進(jìn)行情感分析也成為可能,并逐漸得到廣泛應(yīng)用。
  針對(duì)中文微博的情感分析研究,國(guó)內(nèi)目前主要集中在微博的情感極性判斷上,

2、如分析微博表達(dá)是積極還是消極,此類研究已經(jīng)取得了一定成績(jī)并開始廣泛應(yīng)用,然而,隨著應(yīng)用的深入,用戶希望能夠獲取到微博表達(dá)的更細(xì)致的情感以便了解用戶對(duì)某些事物的態(tài)度,此時(shí)傳統(tǒng)的微博情感分析研究方法已很難完全滿足需求,雖然目前國(guó)內(nèi)近年來對(duì)中文微博細(xì)粒度情緒識(shí)別正在做一些嘗試與努力,但效果并不大理想。因此,本文研究了基于中文微博的細(xì)粒度情緒分析方法,通過探索新的研究思路和方法,進(jìn)一步提高情感分析的準(zhǔn)確性和實(shí)用性。
  文本主要針對(duì)中文微

3、博的細(xì)粒度情緒識(shí)別中的關(guān)鍵技術(shù)展開研究。分析了中文微博研究難點(diǎn)和微博情感表達(dá)特征,提出了一種基于情感詞匯本體的多策略集成分析法。首先在對(duì)微博的有無情緒分類中,在有大量測(cè)試集合的前提下,我們提出了基于迭代的樸素貝葉斯分類算法,對(duì)該算法分類為有情緒的微博文本,我們進(jìn)一步的分析它所表達(dá)的細(xì)膩情緒(anger憤怒、disgust厭惡、fear恐懼、happiness高興、like喜好、sadness悲傷、surprise驚訝),使用新穎的文本特

4、征向量表示和權(quán)重計(jì)算方法量化有情緒微博文本,然后基于支持向量基SVM和K-最近鄰KNN算法分別進(jìn)行7類細(xì)粒度情緒分類,實(shí)現(xiàn)對(duì)中文微博的細(xì)粒度情緒分析。
  最后我們以新浪微博為實(shí)驗(yàn)數(shù)據(jù),在大連理工情感詞匯本體基礎(chǔ)之上,構(gòu)建多策略融合分類算法與單一分類算法對(duì)比實(shí)驗(yàn),最終實(shí)驗(yàn)結(jié)果表明,多策略分類算法融合方案在細(xì)粒度情緒分析研究中效果更好。且在兩類多策略融合分析方法中,“NB& KNN”方案比“NB& SVM”方案稍顯優(yōu)勢(shì)。
  

5、論文的主要貢獻(xiàn)在于:
  1)提出了基于迭代的樸素貝葉斯分類算法,該算法在先驗(yàn)知識(shí)不足的情況下能很好的提升分類性能。
  2)擴(kuò)展豐富了大連理工情感本體庫,這將對(duì)細(xì)粒度情緒識(shí)別準(zhǔn)確度的提升有很大幫助。
  3)研究出中文微博文本新穎的特征向量表示法和權(quán)重量化方法。該方法能有效降低數(shù)據(jù)維數(shù)災(zāi)難,減小算法計(jì)算復(fù)雜度并最終提高算法性能。
  4)實(shí)現(xiàn)了多策略分類算法融合的細(xì)粒度情緒分析方法。該多分類算法融合方案比直接使

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論