版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、產(chǎn)生于20世紀90年代的數(shù)據(jù)挖掘(DataMining,DM)技術(shù)是一種基于海量數(shù)據(jù)獲取知識的技術(shù)。隨著計算機和存儲技術(shù)的快速發(fā)展,人們已經(jīng)積累了大量的歷史數(shù)據(jù),迫切需要把這些歷史數(shù)據(jù)轉(zhuǎn)化為可用的知識,因此DM相關(guān)內(nèi)容已得到廣泛的研究,并有一些成功的應(yīng)用。但當面對的挖掘任務(wù)涉及不同類型的代價時,大多現(xiàn)有DM算法的直接應(yīng)用不能很好地完成DM任務(wù),需引入代價敏感數(shù)據(jù)挖掘(CostSensitiveDM,CSDM)。對于給定的樣本集,常用的D
2、M算法假定每個樣本的誤分類代價都相等,以泛化精度為學習目標;而CSDM則是考慮到不同樣本的誤分類代價不相等,以最小化期望代價為學習目標。支持向量機(SupportVectorMachines,SVM)源于統(tǒng)計學習理論(StatisticalLearningTheory,SLT),是一種強有力的DM算法。不同于神經(jīng)網(wǎng)絡(luò)、決策樹等傳統(tǒng)算法基于經(jīng)驗風險最小化(EmpiricalRiskMinimization,ERM)準則,SVM基于結(jié)構(gòu)風險
3、最小化(StructuralRiskMinimization,SRM)準則,即同時考慮經(jīng)驗風險和模型復(fù)雜度,因而獲得良好的泛化性能。但和傳統(tǒng)算法一樣,SVM不具有代價敏感性,不能直接用于CSDM。 針對CSDM問題,本論文提出一系列基于改進SVM的CSDM算法,并進行應(yīng)用研究。本論文主要內(nèi)容如下: 1.基于SVM及其啟發(fā),提出并證明了支持向量率(和數(shù))與邊界支持向量率(和數(shù))的界,并把這些界分別擴展到正例與反例;提出并證
4、明了正例的支持向量率與邊界支持向量率分別依概率大于反例的支持向量率與邊界支持向量率;證明了正例的分類性能依概率差于反例的分類性能,即證明SVM算法應(yīng)用于不平衡數(shù)據(jù)挖掘時同傳統(tǒng)基于精度的算法一樣存在“有偏性”。虛擬數(shù)據(jù)集試驗和Benchmark數(shù)據(jù)集試驗表明了假設(shè)的合理性和結(jié)論的正確性。 2.基于SVM實現(xiàn)SRM原則的啟發(fā),在SVM中嵌入拒識代價和誤分類代價,提出了SVM-RMC分類器的設(shè)計,并基于修改的SMO算法給出了該優(yōu)化問題
5、的求解方法。在SVM-RMC中,決策函數(shù)和拒識區(qū)域的確定在訓(xùn)練過程中實現(xiàn)。試驗結(jié)果表明:相比于SVM,SVM-RMC減少平均測試代價,提高分類可靠性。 3.基于SVM,通過引入概率估計和代價最小化過程,提出了一個基于SVM的CSDM算法CS-SVM,在此基礎(chǔ)上提出了一個通用CSDM算法G-CSC。CS-SVM和G-CSC以誤分類代價最小作為優(yōu)化目標,G-CSC中包含的分類算法可以是任意的,只要把分類算法的輸出構(gòu)造成后驗概率的形式
6、?;谔摂M和Benchmark數(shù)據(jù)集的試驗結(jié)果表明CS-SVM能有效減小平均測試誤分類代價。 4.基于K最近鄰(KNN)算法,提出了確定噪音代價的方法,并將其引入到SVC和SVR算法,進而提出了嵌入噪音代價的代價敏感SVC(SVC-NC)算法和代價敏感SVR(SVR-NC)算法?;谔摂M和Benchmark數(shù)據(jù)集的試驗結(jié)果表明,SVC-NC和SVR-NC能有效減小訓(xùn)練數(shù)據(jù)中噪音對聚類和回歸結(jié)果的影響,有更好的泛化能力,預(yù)測性能優(yōu)
7、于SVC和SVR。 5.基于一定約束條件,提出并證明了SVM和一類基于規(guī)則的FIS具有函數(shù)等效性。在此基礎(chǔ)上,基于SRM準則設(shè)計了基于規(guī)則的模糊推理系統(tǒng)MBFIS-SRM,該FIS繼承了SVM良好的泛化能力和對“維數(shù)災(zāi)難”的避免能力,也繼承了基于規(guī)則的FIS的顯式推理能力。進而提出了基于SRM準則設(shè)計嵌入誤分類代價的模糊推理系統(tǒng)MBFIS-SRM-MC。Benchmark數(shù)據(jù)試驗表明MBFIS-SRM具有良好的泛化性能,MBFI
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于支持向量機的數(shù)據(jù)挖掘應(yīng)用研究.pdf
- 基于支持向量機的數(shù)據(jù)挖掘.pdf
- 代價敏感支持向量機快速算法研究.pdf
- 基于支持向量機的數(shù)據(jù)挖掘及其應(yīng)用研究.pdf
- 代價敏感的支持向量機監(jiān)督學習研究.pdf
- 基于支持向量機的數(shù)據(jù)挖掘方法.pdf
- 基于支持向量機的數(shù)據(jù)挖掘預(yù)測算法的研究與應(yīng)用.pdf
- 基于支持向量機的測井數(shù)據(jù)挖掘技術(shù)及應(yīng)用研究.pdf
- 基于支持向量機的智能數(shù)據(jù)挖掘算法研究.pdf
- 基于支持向量機的數(shù)據(jù)挖掘技術(shù)研究.pdf
- 基于改進支持向量機的數(shù)據(jù)挖掘分類算法研究.pdf
- 支持向量數(shù)據(jù)描述與支持向量機及其應(yīng)用.pdf
- 基于支持向量機的工業(yè)數(shù)據(jù)挖掘技術(shù)研究.pdf
- 基于支持向量機的情報數(shù)據(jù)分類挖掘.pdf
- 基于數(shù)據(jù)挖掘與支持向量機的微網(wǎng)負荷預(yù)測.pdf
- 基于改進代價敏感支持向量機的銅閃速熔煉工況評估模型研究及應(yīng)用.pdf
- 基于聚類和支持向量機的數(shù)據(jù)挖掘方法研究.pdf
- 基于聚類技術(shù)支持向量機的數(shù)據(jù)挖掘研究.pdf
- 用于數(shù)據(jù)挖掘的支持向量機算法研究.pdf
- 類別不平衡與代價敏感數(shù)據(jù)的集成分類方法研究.pdf
評論
0/150
提交評論