決策樹算法在高校研究生就業(yè)信息庫中的應(yīng)用研究.pdf_第1頁
已閱讀1頁,還剩60頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘是信息技術(shù)迅猛發(fā)展和人們獲取數(shù)據(jù)手段多樣化的結(jié)果,是從大量數(shù)據(jù)中提取隱含在其中的而又潛在有用的信息和知識的過程。數(shù)據(jù)挖掘的任務(wù)主要有關(guān)聯(lián)分析、聚類分析、分類、預(yù)測、時序模式和偏差分析等。在挖掘過程中,數(shù)據(jù)分類是數(shù)掘挖掘研究的一個重要的內(nèi)容。目前用于數(shù)據(jù)分類的方法有很多,如決策樹、神經(jīng)網(wǎng)絡(luò)、k-最臨近方法、粗糙集、統(tǒng)計模型等。其中決策樹算法是分類發(fā)現(xiàn)算法中最常見的一種方法,以其計算速度較快、容易被人理解、容易轉(zhuǎn)換成分類規(guī)則等優(yōu)點廣

2、泛應(yīng)用于醫(yī)療診斷、氣象報告、信貸審核、商業(yè)預(yù)測、案件偵破等領(lǐng)域。
   現(xiàn)存的決策樹算法也存在很多不足之處,如屬性選擇的多值偏向、屬性空缺值的處理、屬性連續(xù)值的處理等。因此,怎樣進一步提高決策樹的性能,提高其分類精度,使之更加適合于數(shù)據(jù)挖掘的應(yīng)用要求具有重要的理論研究意義與現(xiàn)實意義。本文針對上述決策樹的不足之處進行深入的研究,探索決策樹分類算法的優(yōu)化算法以及如何利用決策樹方法對研究生數(shù)據(jù)倉庫進行分類挖掘。
   本文主要

3、研究工作如下:
   第一,闡述了數(shù)據(jù)挖掘和分類技術(shù)的理論基礎(chǔ)以及決策樹的基本知識,并重點對幾種常見的決策樹算法進行了分析和比較,如經(jīng)典決策樹算法—ID3算法、能夠克服ID3算法屬性取值偏向問題的C4.5算法、利用GINI系數(shù)作為屬性選擇標準的CART算法、有著良好伸縮和并行性的SLIQ算法。
   第二,詳細分析了決策樹算法中存在的屬性值空缺、屬性多值偏向、連續(xù)值屬性的處理、屬性約減、屬性選擇標準等問題,并提出了具體的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論