基于數(shù)據(jù)挖掘技術(shù)的醫(yī)療設(shè)備績(jī)效預(yù)測(cè)方法的應(yīng)用研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩101頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、本文在系統(tǒng)介紹數(shù)據(jù)挖掘技術(shù)相關(guān)知識(shí)的基礎(chǔ)上,重點(diǎn)研究了建立數(shù)據(jù)倉(cāng)庫(kù)的技術(shù)和決策樹(shù)挖掘算法及其在醫(yī)療設(shè)備績(jī)效預(yù)測(cè)中的應(yīng)用。 目前,醫(yī)療機(jī)構(gòu)把絕大部分的經(jīng)營(yíng)積累用于購(gòu)置醫(yī)療設(shè)備,每年用于購(gòu)置醫(yī)療設(shè)備的費(fèi)用約占當(dāng)年形成的可動(dòng)用資金的80%,因此,醫(yī)療設(shè)備效益的好壞直接關(guān)系到醫(yī)療機(jī)構(gòu)的經(jīng)營(yíng)狀況,直接關(guān)系到醫(yī)療機(jī)構(gòu)能否為廣大患者提供良好的服務(wù)、能否穩(wěn)定、持續(xù)地發(fā)展的重要課題。正因?yàn)槿绱耍l(wèi)生部《醫(yī)院管理評(píng)價(jià)指南(試行))》中要求醫(yī)療機(jī)構(gòu)購(gòu)

2、置大型醫(yī)療設(shè)備必須經(jīng)過(guò)嚴(yán)格的可行性論證并加強(qiáng)大中型醫(yī)療設(shè)備合理應(yīng)用成本分析,而對(duì)醫(yī)療設(shè)備在購(gòu)置前就對(duì)其投入使用后的績(jī)效進(jìn)行預(yù)測(cè),是醫(yī)療設(shè)備購(gòu)置前進(jìn)行可行性論證中最為關(guān)鍵的一環(huán),也是醫(yī)療設(shè)備投入使用后進(jìn)行合理應(yīng)用成本分析的前提。數(shù)據(jù)挖掘技術(shù)當(dāng)前已經(jīng)成為數(shù)據(jù)庫(kù)和信息決策領(lǐng)域的前沿研究方向之一,受到國(guó)內(nèi)外學(xué)術(shù)界的廣泛關(guān)注,在商業(yè)、工業(yè)和醫(yī)學(xué)領(lǐng)域都得到了較為廣泛的應(yīng)用,取得了顯著的社會(huì)及經(jīng)濟(jì)效益。因此,應(yīng)用數(shù)據(jù)挖掘技術(shù)的理論和方法,對(duì)醫(yī)療設(shè)備的

3、績(jī)效預(yù)測(cè)方法進(jìn)行深入的研究,對(duì)于充分發(fā)揮醫(yī)療設(shè)備的社會(huì)效益和經(jīng)濟(jì)效益,具有重要意義。 近年來(lái),隨著計(jì)算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)的迅速發(fā)展和醫(yī)院信息系統(tǒng)(HIS)在醫(yī)院的普及和廣泛應(yīng)用,雖然HIS中包含有病人信息管理模塊和醫(yī)療設(shè)備管理模塊,但兩者是相互分離的,相應(yīng)的軟件模塊僅局限于分別對(duì)病人信息和醫(yī)療設(shè)備信息進(jìn)行錄入、修改、查詢、統(tǒng)計(jì)等簡(jiǎn)單功能的實(shí)現(xiàn),停留在基于數(shù)據(jù)庫(kù)技術(shù)支持的操作型事務(wù)處理的水平上。對(duì)醫(yī)療設(shè)備購(gòu)置前的可行性論證的決策支持

4、和投入使用后的設(shè)備使用、維護(hù)等信息的深層次加工較少,如何充分利用這些寶貴的信息資源來(lái)為醫(yī)院的管理者和決策者實(shí)施對(duì)醫(yī)療設(shè)備的高效管理和科學(xué)決策提供準(zhǔn)確、可靠的依據(jù),提高醫(yī)療設(shè)備的社會(huì)效益和經(jīng)濟(jì)效益,促進(jìn)醫(yī)院的快速健康發(fā)展,已成為人們關(guān)注的焦點(diǎn)。 數(shù)據(jù)挖掘(DataMining,DM)也稱為數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase,KDD),這一術(shù)語(yǔ)出現(xiàn)于1989年,是從數(shù)據(jù)庫(kù)中識(shí)別出有效的、新穎的、

5、潛在有用的、并且最終可理解的模式的非平凡過(guò)程。數(shù)據(jù)挖掘技術(shù)在90年代有了突飛猛進(jìn)的發(fā)展,數(shù)據(jù)挖掘從理論和技術(shù)上繼承了知識(shí)發(fā)現(xiàn)領(lǐng)域的成果,同時(shí),它還借鑒了許多其它領(lǐng)域的理論和算法,如數(shù)據(jù)庫(kù)系統(tǒng)、機(jī)器學(xué)習(xí)、模式識(shí)別、人工智能、數(shù)據(jù)可視化、信息檢索以及統(tǒng)計(jì)學(xué)等。數(shù)據(jù)挖掘本質(zhì)上可歸類為深層次的數(shù)據(jù)分析方法。數(shù)據(jù)分析本身已經(jīng)有很多年的歷史,不過(guò)由于以往計(jì)算能力的局限性,限制了對(duì)大量數(shù)據(jù)進(jìn)行分析的復(fù)雜數(shù)據(jù)分析方法的應(yīng)用。近年來(lái),由于電子信息技術(shù)的發(fā)

6、展及應(yīng)用的普及,商業(yè)、醫(yī)療及其它領(lǐng)域都產(chǎn)生了大量的業(yè)務(wù)數(shù)據(jù),分析這些數(shù)據(jù)可以為決策提供真正有價(jià)值的信息,因此具有重要的意義。 數(shù)據(jù)挖掘的結(jié)果通常表示為概念、規(guī)則、規(guī)律、模式、約束、可視化等形式。通過(guò)數(shù)據(jù)挖掘所獲得的知識(shí)可以直接用于輔助決策或修正已有的知識(shí)體系,也可作為新的知識(shí)存儲(chǔ)于應(yīng)用系統(tǒng)中。數(shù)據(jù)挖掘的原始數(shù)據(jù)可以是結(jié)構(gòu)化的;也可以是半結(jié)構(gòu)化的,如文本、圖形和圖像數(shù)據(jù);甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)。發(fā)現(xiàn)的知識(shí)可以被用于信息管理

7、、查詢優(yōu)化、決策支持和過(guò)程控制等,還可以用于數(shù)據(jù)自身的維護(hù)。因此,數(shù)據(jù)挖掘是一門交叉學(xué)科,它把人們對(duì)數(shù)據(jù)的應(yīng)用從低層次的簡(jiǎn)單統(tǒng)計(jì)、查詢,提升到從數(shù)據(jù)中挖掘知識(shí),提供決策支持。 數(shù)據(jù)挖掘需要良好的數(shù)據(jù)組織和純凈的數(shù)據(jù),數(shù)據(jù)的質(zhì)量直接影響數(shù)據(jù)挖掘的效果,而數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)恰恰最符合數(shù)據(jù)挖掘的需求,它從各類數(shù)據(jù)源中抽取數(shù)據(jù),經(jīng)過(guò)清洗、集成、選擇、轉(zhuǎn)換等處理,為數(shù)據(jù)挖掘所需要的高質(zhì)量數(shù)據(jù)提供了保證。數(shù)據(jù)倉(cāng)庫(kù)是數(shù)據(jù)庫(kù)技術(shù)發(fā)展的高級(jí)階段,它是

8、面向主題的、集成的、內(nèi)容相對(duì)穩(wěn)定的、隨時(shí)間變化的數(shù)據(jù)集合,可以用來(lái)支持管理決策的定制過(guò)程。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)允許將各種應(yīng)用系統(tǒng)、多個(gè)數(shù)據(jù)庫(kù)集成在一起,為統(tǒng)一的歷史數(shù)據(jù)分析提供堅(jiān)實(shí)的平臺(tái),其主要目的是為決策提供支持,為OLAP、數(shù)據(jù)挖掘等深層的數(shù)據(jù)分析提供平臺(tái)??梢哉f(shuō),數(shù)據(jù)挖掘?yàn)閿?shù)據(jù)倉(cāng)庫(kù)提供了有效的分析處理手段,數(shù)據(jù)倉(cāng)庫(kù)為數(shù)據(jù)挖掘準(zhǔn)備了良好的基礎(chǔ)。 SQLServer2005IntegrationServices(SSIS)是用于創(chuàng)建高

9、性能的數(shù)據(jù)集成解決方案的平臺(tái),它能夠執(zhí)行抽取(extraction),轉(zhuǎn)換(transformation)和加載(load),縮寫為ETL,用于為數(shù)據(jù)倉(cāng)庫(kù)提供服務(wù)。SSIS提供了工作流環(huán)境,可以使用該環(huán)境來(lái)構(gòu)建數(shù)據(jù)轉(zhuǎn)換包??梢詮牟煌臄?shù)據(jù)源中提取數(shù)據(jù),然后對(duì)該數(shù)據(jù)執(zhí)行一系列操作。 由于醫(yī)學(xué)數(shù)據(jù)庫(kù)是一個(gè)復(fù)雜數(shù)據(jù)庫(kù),而目前數(shù)據(jù)挖掘技術(shù)主要應(yīng)用于以結(jié)構(gòu)化數(shù)據(jù)為主的關(guān)系數(shù)據(jù)庫(kù)、事務(wù)數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù),對(duì)復(fù)雜類型數(shù)據(jù)的挖掘尚處在起步階段。結(jié)

10、合醫(yī)學(xué)信息自身具有的特殊性和復(fù)雜性,處理好挖掘過(guò)程中的關(guān)鍵技術(shù),醫(yī)學(xué)數(shù)據(jù)挖掘?qū)⒂袕V闊的應(yīng)用前景。分類和預(yù)測(cè)是數(shù)據(jù)挖掘的兩種數(shù)據(jù)分析形式,通常的算法有粗糙集理論、決策樹(shù)、人工神經(jīng)網(wǎng)絡(luò)、漸近計(jì)算等,各有優(yōu)點(diǎn)。應(yīng)該注意的是大部分算法都不是專業(yè)為解決某個(gè)問(wèn)題而特制的,算法之間也并不互相排斥。一般來(lái)說(shuō)并不存在所謂的最好的算法,在最終決定選取哪種算法之前,有可能對(duì)各種算法都試一下,然后再選取一個(gè)較好的。在實(shí)際應(yīng)用中,可對(duì)這些方法進(jìn)行適當(dāng)?shù)男薷?、擴(kuò)充

11、和優(yōu)化,從而能在各種特殊的醫(yī)學(xué)數(shù)據(jù)庫(kù)中進(jìn)行分類和預(yù)測(cè)。本文重點(diǎn)研究決策樹(shù)算法的原理及方法。 決策樹(shù)算法最基本的原理是遞歸地將數(shù)據(jù)拆分成子集,以便每一個(gè)子集包含目標(biāo)變量類似的狀態(tài),這些目標(biāo)變量是可預(yù)測(cè)屬性。每一次對(duì)樹(shù)進(jìn)行拆分,都要評(píng)價(jià)所有的輸入屬性對(duì)可預(yù)測(cè)屬性的影響。當(dāng)這個(gè)遞歸的過(guò)程結(jié)束時(shí),決策樹(shù)也就創(chuàng)建完成了。比較有名的決策樹(shù)算法有ID3算法、ID4算法、ID5R算法、C4.5算法。 當(dāng)今先進(jìn)的數(shù)據(jù)挖掘工具都提供多種可供

12、選擇的數(shù)據(jù)挖掘算法。這是因?yàn)橐环N算法不可能完成所有不同類型的數(shù)據(jù)挖掘任務(wù)。本次挖掘任務(wù)可分為兩部分的任務(wù):分類任務(wù)和回歸任務(wù)。 分類任務(wù)是:對(duì)不同條件下的設(shè)備使用情況進(jìn)行分類。假設(shè)疾病例數(shù)和設(shè)備使用情況存在線性關(guān)系:y=αx+b,其中x表示疾病例數(shù),y表示設(shè)備使用次數(shù),根據(jù)這個(gè)公式就能對(duì)設(shè)備的使用情況進(jìn)行預(yù)測(cè)。簡(jiǎn)單來(lái)說(shuō),如何得到這個(gè)公式的任務(wù)就是回歸算法的主要任務(wù)。 同時(shí)可以假定,不同的設(shè)備和不同的疾病種類會(huì)有不同的線性

13、關(guān)系(函數(shù)),所以需要對(duì)不同的關(guān)系進(jìn)行分類,例如’cT檢查’與’肺炎’存在線性公式y(tǒng)=α1x+61,’CT檢查’與’肺癌’存在線性公式y(tǒng)=α2x+62。 對(duì)于本次挖掘任務(wù),決策樹(shù)算法與其它的數(shù)據(jù)挖掘算法相比有一定優(yōu)勢(shì),如利用決策樹(shù)算法可以快速創(chuàng)建挖掘模型,并且創(chuàng)建的模型也容易解釋。每一條從根節(jié)點(diǎn)到葉節(jié)點(diǎn)的路徑就是一條規(guī)則,基于決策樹(shù)的預(yù)測(cè)也非常高效。本次任務(wù)主要是對(duì)醫(yī)療設(shè)備的績(jī)效進(jìn)行預(yù)測(cè),因此,用決策樹(shù)算法來(lái)完成本次挖掘任務(wù)是一

14、個(gè)較好的選擇。 SQLServer2005AnalysisServices(SSAS)的決策樹(shù)算法(MicrosoftDecisionTrees)是一個(gè)混合決策樹(shù)算法,Microsoft線性回歸算法不拆分?jǐn)?shù)據(jù),并且回歸公式基于整個(gè)數(shù)據(jù)集,這個(gè)算法支持分類和回歸兩種任務(wù)。Microsoft回歸樹(shù)的每一個(gè)葉節(jié)點(diǎn)都有一個(gè)線性回歸公式。在每一個(gè)回歸模型中至少有一個(gè)回歸量(regressor)。回歸量是一個(gè)連續(xù)的輸入屬性,這個(gè)輸入屬性采用

15、線性的方式對(duì)連續(xù)的可預(yù)測(cè)屬性進(jìn)行建模。例如,使用B超次數(shù)是一個(gè)連續(xù)的可預(yù)測(cè)屬性,則疾病例數(shù)就是一個(gè)回歸量。經(jīng)典的線性回歸公式是:使用B超次數(shù)=α+b*疾病例數(shù)+e,其中:e代表噪聲,其平均值為0,系數(shù)a(截距)和b(斜率)由殘差方程決定。 本文對(duì)數(shù)據(jù)挖掘技術(shù)的理論和方法進(jìn)行了研究探討,并將其應(yīng)用于基于數(shù)據(jù)挖掘技術(shù)的醫(yī)療設(shè)備績(jī)效預(yù)測(cè)的研究中,在對(duì)得到的數(shù)據(jù)挖掘模型進(jìn)行測(cè)試、評(píng)估時(shí),CT、MRI、CR、B超、彩超、電子胃鏡、電子腸鏡

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論