不完整數(shù)據(jù)集的多視角集成分類研究.pdf_第1頁
已閱讀1頁,還剩102頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、隨著通訊技術(shù),物聯(lián)網(wǎng)技術(shù),傳感器技術(shù)等技術(shù)的迅速發(fā)展,當今幾乎在任何地方都可以產(chǎn)生數(shù)據(jù)。這些實際應(yīng)用中獲取的數(shù)據(jù),往往由于各種各樣的原因會出現(xiàn)數(shù)據(jù)缺失的情況。例如,在調(diào)查問卷中,由于接受問卷者個人原因,一些問卷會出現(xiàn)拒絕回答的項目;在生物信息中的基因表達數(shù)據(jù)中,由于芯片的擦痕,灰塵等原因,同樣會導致部分數(shù)據(jù)的缺失。考慮到傳統(tǒng)的機器學習技術(shù)往往針對的是完整數(shù)據(jù),因此,如何處理不完整數(shù)據(jù)成為了機器學習中的一個重要的研究課題。當前對不完整數(shù)據(jù)

2、集分類的研究,如對缺失值進行填充等,多數(shù)方法都需要依賴一些假設(shè),比如隨機缺失(MAR)假設(shè),屬性獨立性假設(shè)等。集成學習方法作為不完整數(shù)據(jù)集的一種有效的處理方法,與缺失值填充的方法相比,其最大的優(yōu)點是不依賴MAR假設(shè),但是當前集成方法在處理不完整數(shù)據(jù)集時仍然面臨著諸如時間復雜度高,算法效率不夠理想等問題。
  粒度計算是近年來人工智能領(lǐng)域中模擬人類思維求解問題的新的方法。它涵蓋了所有有關(guān)粒度的理論、方法和工具,已成為不確定性、模糊性

3、、復雜性問題求解以及海量信息處理的重要工具。粒度計算的主要理論模型包括粗糙集理論,模糊集理論以及商空間理論。其中商空間理論是多粒度計算的主要理論模型。本文針對不完整數(shù)據(jù)集數(shù)據(jù)缺失的特點,基于商空間理論中的多側(cè)面、多視角問題求解的思路,提出針對不同缺失屬性組合構(gòu)造多個不同視角的分類器,以及對各個分類器重要度的度量方法,并在此基礎(chǔ)上研究了多視角分類器的優(yōu)化方法。同時本文針對癌癥基因表達式數(shù)據(jù)的特點,提出首先進行屬性選擇,然后利用選擇性的多視

4、角集成方式實現(xiàn)多視角的集成分類。
  本文的主要研究內(nèi)容概括如下:
  (1)研究不完整數(shù)據(jù)集多視角分類器的構(gòu)建及重要度度量方法
  基于不完整數(shù)據(jù)集中存在的不完整屬性的組合,構(gòu)建不完整數(shù)據(jù)集對應(yīng)的缺失屬性樹。基于該缺失屬性樹,得到一組數(shù)據(jù)子集,同時利用神經(jīng)網(wǎng)絡(luò)作為基礎(chǔ)分類器,采用Bagging策略在每個數(shù)據(jù)子集上訓練得到一個子分類器,對于一個測試樣本,算法首先選擇合適的子分類器對其進行預測,然后利用多數(shù)投票的方式?jīng)Q定

5、其最終的類別。本文同時引入了信息熵來度量子分類器的重要度,并具體研究了幾種不同的加權(quán)方法對算法準確率的影響。
  (2)研究不完整數(shù)據(jù)集多視角分類器的優(yōu)化方法
  在缺失屬性樹的基礎(chǔ)上,針對神經(jīng)網(wǎng)絡(luò)集成分類方法在子分類器過多時,算法復雜度過高的問題,提出了一種多視角集成分類的優(yōu)化方法(SNNE)。該方法通過判斷缺失屬性樹中對應(yīng)的缺失屬性集(有效屬性集合)之間的包含關(guān)系以及兩者與類別的相關(guān)度,在保證算法可預測率和準確率的基礎(chǔ)上

6、,通過一個給定的閾值刪除一部分冗余的數(shù)據(jù)子集,通過減少子分類器個數(shù),有效的提高算法的執(zhí)行效率。實驗表明,在給定閾值為0.05的情況下,算法能夠在保證準確率的基礎(chǔ)上有效的提升執(zhí)行效率。
  (3)研究了基于卡方檢驗和超限學習機的多視角集成分類方法
  針對不完整數(shù)據(jù)集中存在的與類別的相關(guān)度非常低,對分類的精度有著不利的影響的屬性。本文提出了一種基于卡方檢驗的屬性選擇方法(C_ELM),該方法通過將傳統(tǒng)的卡方檢驗應(yīng)用到不完整數(shù)據(jù)

7、集中,通過一個給定的閾值,選擇刪除部分與類別相關(guān)性較小的屬性。同時考慮到,傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)由于采用梯度下降方法而造成時間復雜度過高的問題,利用超限學習機作為基礎(chǔ)分類器,在缺失屬性樹的基礎(chǔ)上,構(gòu)造一組基于投票的超限學習機(v-elms)。針對由于缺失值導致的少量的樣本可能無法找到合適的分類器進行預測的問題,我們又利用單屬性訓練得到一組備選分類器用來解決此類樣本的分類問題。實驗表明,通過刪除不相關(guān)屬性和采用ELM,該方法能夠有效的提升算法的預

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論