正則化方法在數(shù)據(jù)挖掘中的應(yīng)用與研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩125頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、隨著信息技術(shù)的發(fā)展尤其是高通量技術(shù)的進(jìn)步,數(shù)據(jù)已成為各行業(yè)接觸最多,使用最為頻繁的信息載體。但海量數(shù)據(jù)的出現(xiàn)使得人們無(wú)法從中獲得真正對(duì)決策或者預(yù)測(cè)起作用的信息,從而造成了數(shù)據(jù)存儲(chǔ)上的浪費(fèi)和運(yùn)算上的困難。因此,如何從數(shù)據(jù)中快速、準(zhǔn)確地獲取有效信息便成為數(shù)據(jù)挖掘領(lǐng)域中的根本問(wèn)題。正則化方法是近年來(lái)數(shù)據(jù)挖掘領(lǐng)域中的研究熱點(diǎn),通過(guò)整合新的信息對(duì)數(shù)學(xué)模型進(jìn)行修正從而達(dá)到融合多種信息的目的。該方法被越來(lái)越多地運(yùn)用于生物信息學(xué)、模式識(shí)別、人臉檢測(cè)、圖

2、像聚類等領(lǐng)域中。因此,研究正則化方法在數(shù)據(jù)挖掘領(lǐng)域的應(yīng)用具有深遠(yuǎn)的意義。
  本文主要研究的是基于正則化方法的數(shù)據(jù)挖掘技術(shù),全文就分類器設(shè)計(jì)、特征選擇、聚類等問(wèn)題提出了相應(yīng)的算法,全文在提出正則化數(shù)學(xué)模型的同時(shí)分別給出了求解模型的算法及理論分析。本文主要工作概括如下:
  1)首先介紹了本研究的目的、背景以及正則化方法在數(shù)據(jù)挖掘領(lǐng)域中的研究現(xiàn)狀。其中相關(guān)的內(nèi)容包括:正則化方法在分類器設(shè)計(jì)方面的研究現(xiàn)狀;正則化方法在數(shù)據(jù)降維算

3、法中的研究現(xiàn)狀;正則化方法在聚類算法中的研究現(xiàn)狀。
  2)提出一種針對(duì)小樣本分類問(wèn)題具有魯棒性的無(wú)參數(shù)稀疏表達(dá)分類器。傳統(tǒng)稀疏表達(dá)分類器是一種有效的分類方法,但是該分類器的應(yīng)用需要人為設(shè)置相關(guān)的稀疏化參數(shù),顯然對(duì)于不同的數(shù)據(jù)而言稀疏化參數(shù)都不相同。通過(guò)交叉驗(yàn)證的方式挑選參數(shù)是處理此類問(wèn)題的可行方法,但是這將是一項(xiàng)時(shí)間復(fù)雜度非常高的工作。本文提出一種用加權(quán)字典替代原始樣本并構(gòu)造一種不定線性系統(tǒng)的策略,利用正則化稀疏范數(shù)實(shí)現(xiàn)對(duì)樣本分

4、類。本方法不需要人為設(shè)置參數(shù),分類方法具有自適應(yīng)性。
  3)提出了用于特征選擇的局部敏感Laplacian Score算法,本方法的主要思想是結(jié)合數(shù)據(jù)的流形結(jié)構(gòu)考察特征對(duì)局部邊界的貢獻(xiàn)能力,如:同時(shí)考慮特征對(duì)極小化類內(nèi)信息與極大化類間信息的能力。在進(jìn)行有監(jiān)督的特征選擇時(shí),數(shù)據(jù)的局部結(jié)構(gòu)往往比全局特征有更好的判別能力,因此新算法從流形學(xué)習(xí)的角度定義了新的局部邊界結(jié)構(gòu),擴(kuò)展了基于距離的度量方式。特征的方差在一定程度上可以描述特征的顯

5、著性且方差越大的特征更具表達(dá)能力,作為一種信息增益方式,新算法從譜圖理論的角度將方差信息作為正則項(xiàng)引入評(píng)價(jià)框架對(duì)特征選擇進(jìn)行綜合考量,進(jìn)而擴(kuò)展了譜特征選擇算法。
  4)提出兩種高效的批處理式特征選擇算法,該方法同時(shí)考慮了多目標(biāo)回歸模型與圖嵌入并在一個(gè)統(tǒng)一的優(yōu)化模型中予以求解。由于模型中加入了結(jié)構(gòu)化稀疏范數(shù)的約束條件使得本文提出的模型可以適用于特征選擇。本方法有以下兩個(gè)優(yōu)勢(shì):(1)被選出的特征子集同時(shí)考慮了全局邊界結(jié)構(gòu)與局部流形結(jié)

6、構(gòu),因此數(shù)據(jù)的全局結(jié)構(gòu)與局部結(jié)構(gòu)都得以保存;(2)特征的選擇方式以批處理方式進(jìn)行而非以貪婪策略實(shí)現(xiàn),所以降維的同時(shí)特征間的相互作用得以保存。最后本文給出了數(shù)學(xué)模型的求解算法以及理論證明。在求解結(jié)構(gòu)化稀疏問(wèn)題時(shí),本文提出一種基于迭代的優(yōu)化算法從而避免了在非平滑優(yōu)化問(wèn)題中關(guān)于次梯度的求解,進(jìn)而提高了算法的收斂速度。
  5)提出一種基于圖正則的非負(fù)稀疏PCA聚類算法,該方法同時(shí)考慮了數(shù)據(jù)的局部流形結(jié)構(gòu)和稀疏約束因此擴(kuò)展了基于非負(fù)矩陣分

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論