版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、孤立點(diǎn)檢測(cè)是數(shù)據(jù)挖掘領(lǐng)域的重要內(nèi)容之一。孤立點(diǎn)檢測(cè)可以發(fā)現(xiàn)不具備一般數(shù)據(jù)特性的數(shù)據(jù),進(jìn)而發(fā)現(xiàn)潛在的有用信息。孤立點(diǎn)檢測(cè)可以應(yīng)用到很多實(shí)際領(lǐng)域,如信用卡欺’詐檢測(cè)、故障診斷、醫(yī)學(xué)診斷、網(wǎng)絡(luò)入侵檢測(cè)和信息檢索等。近年來(lái)很多國(guó)內(nèi)外學(xué)者著力于結(jié)合支持向量機(jī)技術(shù)進(jìn)行孤立點(diǎn)檢測(cè)應(yīng)用,其成果頗豐。然而隨著研究的不斷深入和應(yīng)用范圍的不斷擴(kuò)大,現(xiàn)存方法遇到了一些障礙,檢測(cè)模型的泛化能力和穩(wěn)定性能也存在諸多問(wèn)題。由于上述原因,本文以基于支持向量機(jī)的孤立點(diǎn)檢
2、測(cè)為題進(jìn)行研究,以期提供更加高效穩(wěn)定的孤立點(diǎn)檢測(cè)方法,主要研究?jī)?nèi)容如下:
1、一類支持向量機(jī)及其改進(jìn)算法進(jìn)行孤立點(diǎn)檢測(cè)問(wèn)題研究。實(shí)際應(yīng)用中訓(xùn)練集通常包含大量的有標(biāo)簽正常樣本,但只包含少量或者根本不存在有標(biāo)簽孤立點(diǎn)樣本,這種情況下一類支持向量機(jī)表現(xiàn)出優(yōu)勢(shì),但是由于算法對(duì)坐標(biāo)原點(diǎn)依賴性強(qiáng)、參數(shù)不易選擇等原因造成孤立點(diǎn)檢測(cè)的誤報(bào)率較高。針對(duì)這些問(wèn)題本文首先利用受試者工作特征分析技術(shù)作為性能評(píng)價(jià)標(biāo)準(zhǔn),使用兩種參數(shù)搜索方法對(duì)模型進(jìn)行
3、優(yōu)化,進(jìn)而獲得最佳決策函數(shù)。其次,設(shè)計(jì)了“局部密度一類支持向量機(jī)”算法,為每個(gè)樣本測(cè)量數(shù)據(jù)局部密度并加到對(duì)應(yīng)的松弛變量上,在訓(xùn)練過(guò)程中包含這些信息將有助于獲得更理想的決策函數(shù)。此外,提出了“孤立點(diǎn)一類支持向量機(jī)”算法,通過(guò)綜合距離和概率輸出兩種標(biāo)準(zhǔn)在無(wú)標(biāo)簽訓(xùn)練集中探測(cè)可疑孤立點(diǎn),然后在特征空間刻畫(huà)與可疑孤立點(diǎn)保持最大間隔的分類超平面,并在此基礎(chǔ)上提出了一種根據(jù)數(shù)據(jù)異常程度動(dòng)態(tài)更新數(shù)據(jù)樣本的方法,提供了穩(wěn)定高效的檢測(cè)性能。
4、2、數(shù)據(jù)預(yù)處理技術(shù)改善孤立點(diǎn)檢測(cè)中支持向量分類器性能問(wèn)題研究。支持向量機(jī)進(jìn)行分類操作的時(shí)候,決策超平面會(huì)受到數(shù)據(jù)庫(kù)中孤立點(diǎn)干擾而發(fā)生偏移;其原因在于孤立點(diǎn)在訓(xùn)練過(guò)程中易于成為邊界支持向量,從而對(duì)最后的決策函數(shù)做出較大貢獻(xiàn):另外數(shù)據(jù)維數(shù)過(guò)高也會(huì)降低分類效率和性能。為此本文提出使用數(shù)據(jù)預(yù)處理方法改善分類器性能,通過(guò)主成分分析處理訓(xùn)練數(shù)據(jù),為遠(yuǎn)離聚簇中心孤立點(diǎn)設(shè)置較小的權(quán)值,這樣孤立點(diǎn)對(duì)最終決策函數(shù)起到的作用將大大降低,從而緩解決策超平面被偏
5、移的問(wèn)題,提出的方法被成功地應(yīng)用到蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)領(lǐng)域。針對(duì)高維數(shù)據(jù)會(huì)影響分類器性能的問(wèn)題,利用高斯過(guò)程潛變量模型來(lái)抽取特征,并且設(shè)計(jì)了階梯跳躍式降維方法,為獲得良好分類性能提供了保障。
3、使用混合策略的孤立點(diǎn)檢測(cè)研究。孤立點(diǎn)檢測(cè)應(yīng)用中數(shù)據(jù)存在不平衡的特點(diǎn),兩類樣本數(shù)量比例失調(diào),將支持向量機(jī)的分類超平面向預(yù)測(cè)大類正常樣本的方向傾斜,進(jìn)而能夠?qū)⒐铝Ⅻc(diǎn)樣本全部識(shí)別為正常樣本。本文首先結(jié)合兩種支持向量機(jī)算法提出了一個(gè)兩階段
6、的孤立點(diǎn)檢測(cè)方法;集成不同權(quán)值改進(jìn)半監(jiān)督的一類支持向量機(jī)對(duì)數(shù)據(jù)集進(jìn)行重采樣,執(zhí)行過(guò)程中通過(guò)設(shè)定較低權(quán)值降低孤立點(diǎn)的信息量,除去部分正常樣本從而平衡兩類樣本的比例:使用代價(jià)敏感支持向量機(jī)執(zhí)行孤立點(diǎn)檢測(cè)操作,以兩種誤分類代價(jià)線性和最小為目標(biāo),實(shí)現(xiàn)了代價(jià)敏感孤立點(diǎn)挖掘。其次結(jié)合集成學(xué)習(xí)方法改進(jìn)支持向量分類器的性能,利用聚類算法分解正常樣本與孤立點(diǎn)樣本作為單個(gè)分類器的輸入,綜合不同分類模型的輸出結(jié)果改善孤立點(diǎn)檢測(cè)性能。對(duì)于大類正常樣本,使用聚類
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于支持向量機(jī)的蒙古語(yǔ)語(yǔ)音端點(diǎn)檢測(cè)方法研究.pdf
- 基于主成分分析支持向量機(jī)的焊點(diǎn)檢測(cè)方法的研究.pdf
- 基于孤立系數(shù)的孤立點(diǎn)檢測(cè)研究.pdf
- 基于支持向量機(jī)的漢語(yǔ)語(yǔ)音端點(diǎn)檢測(cè)和聲韻分離.pdf
- 基于支持向量機(jī)的僵尸網(wǎng)絡(luò)檢測(cè)方法的研究.pdf
- 基于支持向量機(jī)的視頻目標(biāo)檢測(cè)方法研究.pdf
- 基于支持向量機(jī)的彩色圖像人臉檢測(cè)方法研究.pdf
- 基于支持向量機(jī)的SCADA系統(tǒng)入侵檢測(cè)方法.pdf
- 基于改進(jìn)支持向量機(jī)的人臉檢測(cè)方法研究.pdf
- 基于支持向量機(jī)的Android惡意軟件檢測(cè)方法研究.pdf
- 基于支持向量機(jī)的用戶行為異常檢測(cè)方法研究.pdf
- 基于支持向量機(jī)的行人檢測(cè).pdf
- 基于支持向量機(jī)的Android惡意軟件檢測(cè)方法.pdf
- 基于支持向量機(jī)的混沌海雜波信號(hào)檢測(cè)方法研究.pdf
- 基于支持向量機(jī)的養(yǎng)雞場(chǎng)死雞檢測(cè)方法研究.pdf
- 基于支持向量機(jī)的濾波方法研究.pdf
- 基于Hadoop的孤立點(diǎn)檢測(cè)算法研究.pdf
- 基于密度的孤立點(diǎn)檢測(cè)技術(shù)研究.pdf
- 基于支持向量機(jī)的微型喇叭同心度檢測(cè)方法的研究.pdf
- 基于模糊支持向量機(jī)的入侵檢測(cè)研究.pdf
評(píng)論
0/150
提交評(píng)論