結合權重因子與特征向量的文本聚類研究與應用.pdf_第1頁
已閱讀1頁,還剩58頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、分類號:密級:UDC:學號:碩士學位論文2015年5月27日結合權重因子與特征向量的文本聚類研究與應用結合權重因子與特征向量的文本聚類研究與應用Theresearchapplicationofthetextclusteringthatcombinedwithweightingfactfeaturevect學位類別:____工程碩士______作者姓名:郭士串學科、專業(yè):計算機技術指導教師:董躍華研究方向:數據挖掘江西理工大學碩士學位論文

2、摘要I摘要文本聚類是通過聚類算法將同類的文本劃分到同一簇的過程,該過程涉及到文本預處理和文本聚類算法執(zhí)行兩個方面。文本聚類方法目前已經被廣泛的應用于輿情分析、搜索引擎、電子圖書等服務。文本聚類過程屬于典型的無監(jiān)督學習方法,在聚類之前無需知道每個類別的描述信息。這也是文本聚類的難點,眾多研究者都對其進行研究,并取的了豐富的研究成果。在文本進行聚類之前需對文本進行預處理,需要通過使用數學的方法表示文本,一般通過向量空間模型對文本進行表示。通

3、過該模型表示的文本都是由文本本身的特征詞與其權重構成的向量。但通過傳統(tǒng)方法計算的特征詞權重在表示文本時有一定的局限性,不能通過特征詞權重充分體現文本間的差異性。而且在傳統(tǒng)模型中不會考慮特征詞出現的先后順序,更不會考慮特征詞在不同位置出現代表的意義是否相同。還有文本聚類算法的選擇對聚類效果影響也很大,多數聚類算法不能很好的結合文本的編碼方案。本文主要對文本聚類方法的改進和應用做了如下研究:1、首先分析了傳統(tǒng)特征詞權重計算方法對通過特征詞權

4、重表示文本的局限性,并且通過權重因子對特征詞權重計算方法做出了改進。該方法強調了特征詞權重在文本集合中的重要性,而不是單純的想通過特征詞權重表示文本,增強了同類文本之間的相似度。并在對文本進行編碼時修改了傳統(tǒng)的VSM編碼方案,使文本向量由四條特征向量組成,并對特征向量加上位置權重信息。最后考慮到文本編碼方案的修改對文本間相似度計算的影響,重構了文本相似度計算公式。2、其次根據改進的文本預處理和編碼方案,通過遺傳控制因子(GCF)對遺傳K

5、均值文本聚類算法進行改進。使用GCF對遺傳算子操作進行控制,使得算子中的優(yōu)質個體一定被引入下一代,從而克服了遺傳K均值算法算子操作的低效性。使其應用到本文改進的文本編碼方案中能更好的改進聚類效果并且提高聚類精度。最后對改進的文本聚類方法進行實驗分析,證明了改進的方法在文本聚類精度上有明顯提高。3、最后將結合權重因子和特征向量改進的文本聚類算法應用到輿情熱點發(fā)現中,對具體應用做了詳細分析和流程安排。實驗結果表明,改進方法對輿情熱點的趨勢和

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論