版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、聚類分析,是將物理或抽象對象集合劃分為由相似對象組成的多個類的過程。近年來,隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,聚類分析作為數(shù)據(jù)挖掘的重要內(nèi)容得到了廣泛的研究,并應(yīng)用于許多領(lǐng)域中。 隨著信息與互聯(lián)網(wǎng)技術(shù)的發(fā)展,人們擁有的數(shù)據(jù)不僅數(shù)量越來越龐大,而且數(shù)據(jù)類型越來越復(fù)雜、結(jié)構(gòu)越來越多樣。因此,現(xiàn)有的聚類算法在實際應(yīng)用中仍然面臨兩個問題:1)算法在處理大規(guī)模數(shù)據(jù)時,性能急劇下降甚至無法完成數(shù)據(jù)分析,不具有可伸縮性;2)很多聚類算法局限于理論上的分
2、析,較少考慮具體應(yīng)用中的實際數(shù)據(jù)特征與差異,因而實用性差。 交易數(shù)據(jù)是一類特殊的類別數(shù)據(jù),具有數(shù)據(jù)量大和維數(shù)高的特點。典型的交易數(shù)據(jù)包括購物籃數(shù)據(jù)、WEB日志數(shù)據(jù)、客戶信息、病人診斷記錄以及圖像信息等,通常產(chǎn)生于零售業(yè)、電子商務(wù)、醫(yī)療以及電信、保險、銀行等行業(yè)。因此,針對交易數(shù)據(jù),研究可伸縮聚類分析方法是一個同時具有挑戰(zhàn)性和實際意義的課題。本論文以大規(guī)模交易數(shù)據(jù)為研究對象,重點研究大規(guī)模交易數(shù)據(jù)聚類分析中的一些問題。本文的主要研
3、究內(nèi)容和創(chuàng)新點包括以下幾個方面: (1)提出了可伸縮的大規(guī)模交易數(shù)據(jù)聚類分析框架,即SCALE(Sampling,ClusteringstructureAssessment,cLusteringanddomain—specificEvaluation)。SCALE的設(shè)計具有下列特點:1)針對交易數(shù)據(jù)的特征,提出采用覆蓋密度以及加權(quán)覆蓋密度有效地測量一組交易數(shù)據(jù)的整體相似度;2)基于加權(quán)覆蓋密度設(shè)計和實現(xiàn)可伸縮的WCD交易數(shù)據(jù)聚類
4、算法;3)采用聚類結(jié)構(gòu)探測方法生成候選的聚類數(shù)量,有效地減少聚類算法參數(shù)空間的搜索;4)將聚類結(jié)果評估集成到該框架下,用領(lǐng)域特定的度量輔助用戶選擇最優(yōu)的聚類結(jié)果。實驗結(jié)果表明SCALE框架下的交易數(shù)據(jù)聚類分析能生成高質(zhì)量的交易數(shù)據(jù)聚類結(jié)果。 (2)研究了交易數(shù)據(jù)聚類結(jié)構(gòu)探測的問題。針對通用類別數(shù)據(jù)聚類結(jié)構(gòu)識別方法BKPlot的兩個弱點,即噪音候選聚類數(shù)量多以及處理具有大量數(shù)據(jù)項的交易數(shù)據(jù)集時算法性能下降,提出在交易數(shù)據(jù)集找出一組
5、候選的最優(yōu)聚類數(shù)量“Ks”的新方法,即DMDI方法。以自定義的交易聚類模式相異度度量為基礎(chǔ)設(shè)計和開發(fā)出一種凝聚的層次聚類算法,即ACTD算法。利用ACTD算法在聚類過程中生成的合并索引值可發(fā)現(xiàn)候選的最優(yōu)聚類數(shù)量。實驗表明,DMDI方法能有效地識別交易數(shù)據(jù)聚類結(jié)構(gòu)。 (3)研究了交易數(shù)據(jù)聚類分析結(jié)果的穩(wěn)定性問題。傳統(tǒng)基于劃分的聚類方法的聚類結(jié)果常常陷入局部最優(yōu),而SOM神經(jīng)網(wǎng)絡(luò)的聚類結(jié)果穩(wěn)定,但只能處理數(shù)值型數(shù)據(jù)。為此,本文提出了
6、一種基于GHSOM神經(jīng)網(wǎng)絡(luò)的交易數(shù)據(jù)聚類分析方法,即GHSOM—CD方法。該方法在GHSOM網(wǎng)絡(luò)學習算法中引入覆蓋密度的概念,改進了神經(jīng)元權(quán)值更新方法以及網(wǎng)絡(luò)訓(xùn)練停止條件。實驗表明GHSOM—CD方法在交易數(shù)據(jù)集上產(chǎn)生的聚類結(jié)果更有意義,是SOM神經(jīng)網(wǎng)絡(luò)在類別數(shù)據(jù)聚類分析上的擴展應(yīng)用。 (4)研究了頻繁項集的壓縮問題。針對頻繁項集挖掘中頻繁項集數(shù)量過多的問題,研究并提出一種動態(tài)聚類的方法,即EESC算法,近似壓縮頻繁項集。該聚類
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基因表達數(shù)據(jù)聚類分析.pdf
- 基因表達數(shù)據(jù)的聚類分析.pdf
- 數(shù)據(jù)流聚類分析算法.pdf
- 基于Voronoi的平面數(shù)據(jù)的聚類分析.pdf
- 數(shù)據(jù)挖掘中聚類分析的研究.pdf
- 聚類分析在數(shù)據(jù)挖掘中的應(yīng)用.pdf
- 數(shù)據(jù)挖掘中的異常點分析和聚類分析.pdf
- 基因數(shù)據(jù)聚類分析研究.pdf
- 移動數(shù)據(jù)的預(yù)估聚類分析算法研究.pdf
- 雌激素基因表達數(shù)據(jù)的聚類分析.pdf
- 數(shù)據(jù)挖掘中聚類分析算法的研究.pdf
- 基因數(shù)據(jù)的動態(tài)聚類分析研究.pdf
- 基因表達數(shù)據(jù)的雙聚類分析方法研究.pdf
- 聚類分析數(shù)據(jù)挖掘方法的研究與應(yīng)用.pdf
- 紫外鑒別時掃描數(shù)據(jù)的聚類分析
- 數(shù)據(jù)挖掘中聚類分析算法研究.pdf
- 轉(zhuǎn)子故障數(shù)據(jù)集的聚類分析方法研究.pdf
- 基于數(shù)據(jù)流的聚類分析算法研究.pdf
- 數(shù)據(jù)挖掘中聚類分析的研究與應(yīng)用.pdf
- 數(shù)據(jù)挖掘中聚類分析方法綜述
評論
0/150
提交評論