版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、C45決策樹工具使用說明1.簡介:本文檔給出了有關(guān)C45決策樹方法相關(guān)的一些資料,面向?qū)ο笫茄芯咳藛T。本文檔的內(nèi)容安排如下:1C45決策樹方法的使用場合描述;2C45決策樹如何訓(xùn)練,即C45_VC.exe使用說明;3C45決策樹訓(xùn)練結(jié)果如何在代碼中使用,即CAskC45編程說明;4C45的外圍工具簡介;5C45的原理說明;6聯(lián)系方式。2.適合用C45解決的問題C45是一種決策樹的算法,可以理解為數(shù)據(jù)挖掘算法的一種。從大規(guī)模的數(shù)據(jù)中挖掘規(guī)
2、律,這里的大規(guī)模數(shù)據(jù)一般是用屬性來描述,屬性本身可以是連續(xù)量,如語音數(shù)據(jù)的基頻值;也可以使離散量,如句子中詞的個數(shù);還可以使枚舉量,如26個詞類,聲韻母類型等。屬性分為輸入屬性,和結(jié)論屬性(或稱決策屬性)。結(jié)論屬性就是我們希望從輸入屬性中得到的結(jié)果,如希望從輸入的詞性序列中預(yù)測某個位置是不是L3邊界,或者根據(jù)前后的音調(diào)、基頻等預(yù)測當(dāng)前的音節(jié)應(yīng)該是哪一類的韻律曲線。結(jié)論屬性必須是枚舉量(當(dāng)然包括布爾量)。而規(guī)律則以決策樹的形式來表示,其形
3、式如,在C45_VC.txt或者Screen.txt中可以看到類似的輸出結(jié)果:DecisionTree:e_lv45.8:NeiBuWen(44.0)如果n_lv值大于45.8,結(jié)論屬性應(yīng)該是NewiBuWen。e_lv47.6:如果e_lv屬性值大于47.6的話|n_lv45.8:WaiBuWen(32.0)…注:n_lv=45.8:NeiWen(76.02.0)中的76.0表示到這個決策分支的有76個例子,其中2.0是錯誤的例子數(shù)目
4、。這里有可能出現(xiàn)小數(shù),這是決策樹根據(jù)概率計算過程中可能將一個例子劃分到多個子分支,每個分支算是(0.幾)個事例到此。這里同時給出關(guān)于使用C45決策樹方法的一些注意事項:1)C45是狂揉的,只要你給它輸入屬性和輸出屬性,即使輸出和輸入之間沒有任何關(guān)系,決策樹一樣可以給出很不錯的決策正確率,尤其是集內(nèi)測試正確率。2)要避免上述問題,兩個方面重要:(1)集外測試,集內(nèi)測試不說明問題。集外測試也要有一定的數(shù)目,這樣才可以得到比較可信的測試結(jié)果。
5、(2)輸入數(shù)據(jù)量,理論上訓(xùn)練例子的個數(shù)應(yīng)該是所有屬性空間大小的10倍。屬性空間大小計算為:每個屬性可能的取值的種類數(shù)的連乘積。比如輸入屬性是3個詞類,而每個詞類可能有32種可能,則理論上需要的訓(xùn)練例子數(shù)為:323232=32768個。當(dāng)然考慮到有些詞類組合不可能出現(xiàn),所需訓(xùn)練例子數(shù)可以籌減。3)理論上,C45能自動排除那些不相關(guān)的屬性,但是在訓(xùn)練數(shù)據(jù)稀疏的情況下,決策樹一樣會利用那些不相關(guān)的屬性,得到一些結(jié)論。所以不能一咕腦兒把所有的屬
6、性扔給決策樹,還是需要對輸入屬性與輸出屬性之間有沒有關(guān)聯(lián)進(jìn)行仔細(xì)的分析。4)決策樹的結(jié)論屬性不宜太多。超過20就是很不好了,因為決策樹認(rèn)為結(jié)論屬性完全如上,在輸入數(shù)據(jù)文件中,每一個訓(xùn)練例占一行;在一行中,按照先因素屬性后決策屬性的順序,因素屬性按照說明先后的順序依次輸入屬性值,中間用逗號隔開,以句號結(jié)束。從上述討論可以看到,對C4.5的應(yīng)用的關(guān)鍵就在于如何組織輸入的格式文件和數(shù)據(jù)文件,也就是數(shù)據(jù)的預(yù)處理。yu.tes文件格式和yu.da
7、t完全一樣,但理論上數(shù)據(jù)應(yīng)該不一樣,因為一個是訓(xùn)練數(shù)據(jù),一個是用于測試開放正確率。如果用到C45輔助工具:FeatureAnalysis.exe,則很可能還需要一個文件:yu.crs,這個文件格式和yu.dat還是一樣,用于交叉集的測試。訓(xùn)練集:交叉集:測試集的例子數(shù)目之比一般為:4:1:1。3.2訓(xùn)練過程C45的訓(xùn)練過程利用C45_VC.exe。這是一個控制臺(Console)程序,其最基本的調(diào)用格式為:C45_VC.exe–fyu其
8、中f表示后面接了項目名稱,這里是yu。C45_VC.exe還支持多個參數(shù),這些參數(shù)的設(shè)置對效果有很多好處,請多加利用,下面一個一個說明,按使用頻度排序:3.2.1–f項目名后接項目名稱,注意不要.nam后綴名3.2.2–u利用訓(xùn)練生成的決策樹檢測對應(yīng)的.tes文件。3.2.3–s嘗試對枚舉類型的屬性進(jìn)行聚類分析,比如某個屬性(記為CiLei)是詞類屬性,有:abcdef…z共26種可能,如果不用s參數(shù),則一旦用到CurrentCiLei
9、屬性,那么會把決策樹一下子生成26個子分支,而用到s參數(shù)之后,則C45_VC自動嘗試可能的詞類組合,生成的子分支可能是:||CurrentCiLei=p:1(2.01.0)||CurrentCiLeiinbeghijklruwxyznewold01(0.0)||CurrentCiLeiinacdfmnoqstvngp這樣有助于提高訓(xùn)練的效果。3.2.4–m數(shù)字m后面接的數(shù)字表示當(dāng)一個決策分支中必須有大于等于數(shù)字個支撐事例時才可能繼續(xù)往下
10、細(xì)分。比如m5表示,如果到這個分支的時候,還有超過5個實例,那么才嘗試是不是繼續(xù)往下分。這個參數(shù)有助于提高集外測試正確率。3.2.5–c數(shù)字c后面接的數(shù)字表示裁減到的比例,決策樹有個裁減的概念,先會生成一個完整的決策樹,然后進(jìn)行裁減,裁減有助于提高決策樹的集外測試正確率,缺省裁減到25%。注意是裁減到原先的25%。后面的數(shù)字必須是整型,c5就表示裁減到原先的5%。裁減越多一般來說集內(nèi)測試正確率降低而集外測試效果上升。3.2.6–v數(shù)字輸
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 決策樹風(fēng)險決策
- 核查工具使用說明
- 工具使用說明課件
- 工程建設(shè)學(xué)習(xí)資料c45
- 決策樹例題
- 圖片壓縮工具使用說明
- 朗文交互英語二級c45
- 照片處理工具使用說明
- 決策樹生成系統(tǒng).pdf
- turbo c 2.0使用說明
- 決策樹練習(xí)題
- 投標(biāo)工具使用說明書docx
- 瑞芯微量產(chǎn)工具使用說明
- 決策樹的后期修剪技術(shù)
- 有序決策樹在SOCA下的擴(kuò)展及模糊有序決策樹的研究.pdf
- 基于改進(jìn)的決策樹信用評價模型研究及其工具實現(xiàn).pdf
- 基于c4.5決策樹的試題難易程度分類研究
- 信息粒度與決策樹.pdf
- 畢業(yè)論文:c30—c45混凝土配合比優(yōu)化設(shè)計
- 基于決策樹c4.5算法的網(wǎng)絡(luò)入侵檢測研究
評論
0/150
提交評論