基于關聯(lián)規(guī)則與決策樹的預測方法研究及其應用.pdf_第1頁
已閱讀1頁,還剩110頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、1.目前的關聯(lián)規(guī)則挖掘通常采用支持度-置信度-興趣度模型。在該模型下參數(shù)選取都是依靠經(jīng)驗來設定,而且得到的規(guī)則數(shù)量通常無法估計。如果生成的規(guī)則數(shù)量太多,則無法有效提取其中有意義的規(guī)則。為此,本文分析了該模型下的參數(shù)意義,并利用回歸方法設計了多種規(guī)則條數(shù)與參數(shù)之間的方程。利用復相關系數(shù)檢驗了方程的擬合效果,并采用顯著性檢驗來驗證參數(shù)的系數(shù)是否顯著為零。將復相關系數(shù)較大的回歸方程作為擬合的最優(yōu)方程。并利用冠心病數(shù)據(jù)和University o

2、f California Irvine(UCI)數(shù)據(jù)進行了驗證。通過選定的最優(yōu)方程,可以較好地預測給定參數(shù)下的規(guī)則的數(shù)量,同時優(yōu)化參數(shù)的選擇以及確定參數(shù)的選擇范圍。
   2.關聯(lián)規(guī)則挖掘已成為現(xiàn)代中醫(yī)尋找辨證以及用藥規(guī)律的手段之一。目前,關聯(lián)規(guī)則挖掘采用統(tǒng)一的支持度約束來生成頻繁項目集。因此,無法挖掘具有潛在價值和較低支持度的長項目集。為此,本文提出新的關聯(lián)規(guī)則挖掘模型:模糊遞減支持度,置信度。在此基礎上,通過分析生成的規(guī)則前

3、件與后件的相關性,提出了3種修正模型:(1)模糊遞減支持度,置信度,興趣度模型。(2)模糊遞減支持度,雙向置信度,興趣度模型。(3)模糊遞減支持度,重合度,興趣度模型。實驗:根據(jù)醫(yī)院采集的冠心病數(shù)據(jù),提取中醫(yī)的辨證相關因素和病人的用藥數(shù)據(jù)。實驗結果表明,本文提出的模型不僅驗證了已有的辨證與用藥規(guī)律,而且能夠挖掘出多因素組合的辨證和多種藥物之間的配伍規(guī)律。
   3.通過對已有的基于變精度粗糙集的決策樹分類算法進行分析和研究,發(fā)現(xiàn)

4、基于變精度粗糙集構建的決策樹算法具有較好的分類效果,且能夠容忍噪聲數(shù)據(jù)。但以變精度粗糙集進行屬性選擇時,仍然具有ID3算法的不足,即往往會選擇屬性值較多的屬性作為分裂結點,而屬性值較多的屬性往往卻不是最優(yōu)的屬性。為此,本文提出了兩種新的屬性選擇方法。第一種屬性選擇方法,不僅考慮當前結點的屬性值個數(shù),而且考慮下層結點的變精度明確區(qū)大小,即同時考慮樹的兩層結點。通過新的屬性選擇方法,不僅克服了ID3算法中的不足,而且具有變精度粗糙集的優(yōu)點。

5、第二種屬性選擇方法,使用了一種綜合考慮分類精度和分支數(shù)量的屬性選擇新標準——加權粗糙度和復雜度。同時在結點停止分裂條件中引入了支持度和置信度,提高決策樹的泛化能力。為降低噪聲數(shù)據(jù)和缺失值的影響,算法使用了基于匹配度的類別預測方法。通過實驗,驗證了本文所提出方法的有效性。
   4.分析目前處理多值屬性和多類標數(shù)據(jù)的決策樹算法,針對其中屬性選擇困難、孩子結點的相似度計算不夠精確等不足,提出了3種新的多值屬性和多類標數(shù)據(jù)的決策樹算法

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論