版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著互聯(lián)網(wǎng)的發(fā)展和電子媒體的繁榮,新聞文本數(shù)據(jù)的規(guī)模日益增長(zhǎng),而對(duì)新聞文本的組織、摘要和瀏覽會(huì)花費(fèi)大量的時(shí)間。為了保證新聞的時(shí)效性,同時(shí)讓讀者方便地獲取特定種類(lèi)的新聞,并使新聞的閱讀量最大化,需要對(duì)大規(guī)模的新聞文檔集進(jìn)行快速的分組。
文本聚類(lèi)技術(shù)做為一種非監(jiān)督的機(jī)器學(xué)習(xí)方法,能夠在沒(méi)有人工標(biāo)注的情況下,對(duì)未分類(lèi)的文本進(jìn)行快速的初步分組,因此具有一定的靈活性和較高的自動(dòng)化處理能力,故而使用文本聚類(lèi)技術(shù)可以對(duì)大規(guī)模的新聞文本集進(jìn)行
2、有效地組織、摘要和導(dǎo)航。
然而,傳統(tǒng)的基于詞袋模型(Bag of Words)的文本聚類(lèi)方法可以根據(jù)詞頻統(tǒng)計(jì)信息等特征對(duì)文本中詞性進(jìn)行加權(quán),區(qū)別特征貢獻(xiàn)度,但無(wú)法捕捉文本中詞匯的語(yǔ)義關(guān)系;基于主題模型的文本聚類(lèi)方法可以捕捉到新聞中詞語(yǔ)與文章的共現(xiàn),提取新聞的隱含主題,卻不能捕捉詞與詞之間的共現(xiàn)關(guān)系;近年由Mikolov等人提出的Skip-Gram方法通過(guò)統(tǒng)計(jì)詞與上下文的共現(xiàn),訓(xùn)練得到的詞向量能夠攜帶詞匯間的語(yǔ)義關(guān)聯(lián),在很多機(jī)器
3、學(xué)習(xí)任務(wù)中表現(xiàn)優(yōu)秀,但卻無(wú)法處理漢語(yǔ)中約20%的多義詞、同義詞和近義詞對(duì)文本語(yǔ)義的影響;而且,流行的文本聚類(lèi)方法大都在詞語(yǔ)、短語(yǔ)這樣短文本上進(jìn)行聚類(lèi)是表現(xiàn)較好,卻無(wú)法有效在新聞這樣的長(zhǎng)文本上進(jìn)行聚類(lèi)。
本文提出一個(gè)新的新聞文本聚類(lèi)方法TDE-DC(Topic Document Embedding based Document Clustering),通過(guò)結(jié)合Skip-Gram模型、主題模型和TF-IDF加權(quán)方法的優(yōu)點(diǎn),克服各模
4、型單獨(dú)使用時(shí)的缺陷來(lái)獲得更好的新聞長(zhǎng)文本聚類(lèi)效果。TDE-DC文本聚類(lèi)方法主要完成了如下工作:1)使用詞匯和詞匯所在文本的隱含主題一起作為輸入,通過(guò)Skip-Gram模型對(duì)上下文(Context)中的詞匯進(jìn)行預(yù)測(cè),從而得到同時(shí)攜帶詞匯間隱含語(yǔ)義關(guān)系和隱含主題的主題詞向量(Topic Word Embedding),即獲得了高質(zhì)量的詞向量表示,也有效地克服了漢語(yǔ)中高頻出現(xiàn)的多義詞、同義詞及近義詞對(duì)文本含義的特殊影響;2)以TF-IDF值為
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于詞向量的短文本聚類(lèi)研究與應(yīng)用.pdf
- 基于AP算法的文本聚類(lèi)研究與實(shí)現(xiàn).pdf
- 基于遺傳的文本軟聚類(lèi)研究與實(shí)現(xiàn).pdf
- 基于文本聚類(lèi)技術(shù)的郵件分類(lèi)系統(tǒng)的研究與實(shí)現(xiàn).pdf
- 基于特征詞的文本聚類(lèi)算法研究.pdf
- 基于文本相似度計(jì)算的文本聚類(lèi)算法研究與實(shí)現(xiàn).pdf
- 基于無(wú)指導(dǎo)的詞聚類(lèi)及在文本聚類(lèi)中應(yīng)用的研究.pdf
- 基于內(nèi)存計(jì)算的文本聚類(lèi)算法的研究與實(shí)現(xiàn).pdf
- 基于微博平臺(tái)的文本聚類(lèi)研究與實(shí)現(xiàn).pdf
- 自動(dòng)文本聚類(lèi)系統(tǒng)的研究與實(shí)現(xiàn).pdf
- 基于向量空間的文本聚類(lèi)方法與實(shí)現(xiàn).pdf
- 文本聚類(lèi)中參數(shù)自動(dòng)設(shè)置技術(shù)的研究與實(shí)現(xiàn).pdf
- 半定嵌入文本聚類(lèi)算法的研究.pdf
- 中文文本聚類(lèi)的研究與實(shí)現(xiàn).pdf
- 基于K-means算法的文本聚類(lèi)的研究與實(shí)現(xiàn).pdf
- 基于潛在語(yǔ)義的文本自動(dòng)聚類(lèi)系統(tǒng)的研究與實(shí)現(xiàn).pdf
- 基于DK-Means算法的文本聚類(lèi)的研究與實(shí)現(xiàn).pdf
- 基于譜聚類(lèi)的文本聚類(lèi)算法研究.pdf
- 基于MapReduce的文本聚類(lèi)算法并行化研究與實(shí)現(xiàn).pdf
- 基于微博文本的話題聚類(lèi)研究與實(shí)現(xiàn).pdf
評(píng)論
0/150
提交評(píng)論