版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、數(shù)據(jù)挖掘原理,,趙衛(wèi)東 博士復(fù)旦大學(xué)軟件學(xué)院wdzhao@fudan.edu.cn,What is Data Mining?,According to the Gartner Group, Data mining is the process of discovering meaningful new correlations, patterns and trends by sifting through large amount
2、s of data stored in repositories, using pattern recognition technologies as well as statistical and mathematical techniques.Data mining refers to the work of discovering new and useful (business) knowledge from large re
3、al databases through a non-trivial process and using a sound methodology and multiple data processing and analytical techniques.Examples:Detect taxation fraud: not declaring all income for taxation;From the thousands
4、of mobile phone customers, predict which customers are going to switch to a competitor .,數(shù)據(jù)挖掘是一個交叉科學(xué)領(lǐng)域,受多個學(xué)科影響,包括數(shù)據(jù)庫系統(tǒng)、統(tǒng)計、機器學(xué)習(xí)、可視化和信息科學(xué)。,,一個比較正式的數(shù)據(jù)挖掘的定義,高層次上的主動式自動發(fā)現(xiàn)方法,被稱為發(fā)現(xiàn)驅(qū)動型知識發(fā)現(xiàn)。從數(shù)據(jù)中提取正確的、有用的、未知的和綜合的信息并用它進行決策的過程。數(shù)據(jù)挖
5、掘的相關(guān)學(xué)科是統(tǒng)計理論、數(shù)據(jù)庫技術(shù)和人工智能。前Business Objects的Todd Rowe曾表示:“從技術(shù)上講,甚至只要有完備的Excel數(shù)據(jù)就能用上BI?!?,過程,數(shù)據(jù)挖掘并不是一個裝在軟件包裝盒中的工具可以簡單的買到并運行在商業(yè)智能環(huán)境中,也不會自動開始產(chǎn)生值得注意的商業(yè)規(guī)律。,,正確的,提取的信息應(yīng)該是正確的,并且在統(tǒng)計上是重要的以支持有依據(jù)的決定。正確意味著確證性和完整性。不但需要從數(shù)據(jù)庫中得到正確的客戶,還希望得
6、到所有正確的客戶。這就需要原始數(shù)據(jù)和數(shù)據(jù)挖掘過程都具有正確性。,有用的,數(shù)據(jù)挖掘過程可能會傳遞正確的和重要的結(jié)果,但是這些知識必須是對商業(yè)有用的。如結(jié)果告訴你要在一個大量的渠道上多樣化市場運作,這可能會無法辦到。同樣結(jié)果必須使你能搶在競爭對手之前行動。,未知的,數(shù)據(jù)挖掘要產(chǎn)生新的信息。如果過程只是傳遞一些無關(guān)緊要的結(jié)果,那么數(shù)據(jù)挖掘的商業(yè)動力就會消失。這就是區(qū)分驗證和探索的性質(zhì)。,最小要求,以上顯示了數(shù)據(jù)挖掘最小要求,可以用它來評價數(shù)據(jù)
7、挖掘是否對業(yè)務(wù)環(huán)境增加了附加的價值其他要求,Why Data Mining?,Gain an insight into business dataIdentify useful patterns, correlations and models from data automatically to answer questions like, Which customer is likely to churn in two mon
8、ths?Which customer is my cross sell target?What are the characteristics of my high spending and low spending customers?Data mining is a core technology of business intelligenceData mining is a core application of dat
9、a warehousesData mining is the core technology of analytical CRMData mining is the core technology of online recommendation and personalization in e-commerceData mining has become a part of business function in many c
10、ompanies,Data mining is regularly used in,典型的數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu),,Verification-Driven Analysis,Verification-driven data mining tools extract data. The user is expected to generate information based on his interpretation of the ret
11、urned data.,New Process With Data Mining,Discovery-drivenComputer sifts through millions of hypotheses and only presents the most interesting/valid onesExample:From a sample group of clients that have defected to a co
12、mpetitive bank - identify client characteristics that are strongly correlated, and using these attributes, score the rest of the client and prospect population and the strength of their relationships to sample group.,數(shù)據(jù)挖
13、掘可以做什么?,分類和預(yù)測 聚類關(guān)聯(lián)分析描述和可視化,數(shù)據(jù)挖掘過程,,占70%的工作量,是最重要的階段,占25%的工作量,,,數(shù)據(jù)挖掘各階段的時間分配,數(shù)據(jù)挖掘流程國際標(biāo)準CRISP-DM(1),數(shù)據(jù)挖掘流程國際標(biāo)準CRISP-DM(2),1996年提出的行業(yè)無關(guān)、應(yīng)用無關(guān)的數(shù)據(jù)挖掘過程標(biāo)準—Cross Industry Standard Process for Data Mining(CRISP-DM)。這個標(biāo)準把挖掘過程分為六
14、個階段:定義業(yè)務(wù)問題(business understanding)、數(shù)據(jù)理解(data understanding)、數(shù)據(jù)預(yù)處理(data preparation)、數(shù)據(jù)建模(data modeling)、模型評估(evaluation)和部署(deployment)。,商業(yè)理解。這可能是數(shù)據(jù)挖掘最重要的階段。商業(yè)理解包括確定業(yè)務(wù)對象、評估情 況、確定數(shù)據(jù)挖掘目標(biāo)以及制訂工程計劃。數(shù)據(jù)理解。數(shù)據(jù)提供了數(shù)據(jù)挖掘的“原材料”。此
15、階段用于了解您的數(shù)據(jù)源以及這些數(shù)據(jù)的特征。此階段包括收集初始數(shù)據(jù)、描述數(shù)據(jù)、探索數(shù)據(jù)和驗證數(shù)據(jù)質(zhì)量?!拜敵龉?jié)點”選項板上提供的數(shù)據(jù)審核節(jié)點是一個用于數(shù)據(jù)理解的、不可或缺的工具。、數(shù)據(jù)準備。對數(shù)據(jù)源進行分類之后,您需要準備數(shù)據(jù),以便進行挖掘。準備包括選 擇、清理、構(gòu)建、集成數(shù)據(jù)以及格式化數(shù)據(jù)。建模。此階段毫無疑問是數(shù)據(jù)挖掘的核心部分,在此階段將使用精巧復(fù)雜的分析 方法從數(shù)據(jù)中提取信息。此階段包括選擇建模技術(shù)、生成測試
16、設(shè)計,以及構(gòu)建 和評估模型。評估。選定模型之后,就可以評估數(shù)據(jù)挖掘結(jié)果在多大程度上能夠幫助您實現(xiàn)業(yè)務(wù) 目標(biāo)了。此階段的要素包括評估結(jié)果、查看數(shù)據(jù)挖掘過程,以及確定后續(xù)步驟。部署。既然您已經(jīng)付出了上述所有努力,現(xiàn)在就應(yīng)該有所獲益了。此階段主要是將 您的新知識結(jié)合到日常的業(yè)務(wù)流程中,來解決最初的業(yè)務(wù)問題。此階段包括計劃部 署、監(jiān)視和維護、生成最終報告,以及復(fù)查該工程。,數(shù)據(jù)挖掘流程國際標(biāo)準CRISP-DM
17、(3),,IBM SPSS Modeler可視化界面,,AlphaMiner界面,數(shù)據(jù)挖掘過程是循環(huán)的過程,上圖會容易造成一個線性過程的印象。事實上,每一步的結(jié)果會導(dǎo)致這樣一個結(jié)論:需要從前幾步中得到更多的信息,并不斷重復(fù)這一過程。這些循環(huán)保證了最后的結(jié)果是完全為業(yè)務(wù)量身定制的。,業(yè)務(wù)分析,理想化地,公司中的所有活動都在不同程度上通過策略和商業(yè)目標(biāo)與公司的任務(wù)描述相關(guān)。數(shù)據(jù)挖掘使你能夠比以前在更高的層次上控制你的目標(biāo)。業(yè)務(wù)分析涉及到
18、領(lǐng)域?qū)<液屯诰驅(qū)<?。前者專心于?guī)定商業(yè)需求,而后者從數(shù)據(jù)挖掘的觀點上保證這些要求的可行性,并且具體說明滿足這些要求所需的挖掘操作。,數(shù)據(jù)分析,為了研究使用統(tǒng)計方法的數(shù)據(jù),可能有必要清理數(shù)據(jù),添入缺損的值,或者從幾個系統(tǒng)中將數(shù)據(jù)整合起來。數(shù)據(jù)分析將會對以后步驟中必須的數(shù)據(jù)轉(zhuǎn)換提供一個初步的了解,比如數(shù)據(jù)清理和整合??赡芤矔赋霁@取外部的信息是必要的,比如說日常商業(yè)運作中并不需要的顧客人口統(tǒng)計數(shù)據(jù)。在這一步中涉及到的角色是挖掘?qū)<?,?/p>
19、們執(zhí)行大部分的任務(wù),還有數(shù)據(jù)庫管理員,他們將通過提供數(shù)據(jù)的訪問權(quán)限來支持這些活動。,數(shù)據(jù)準備,當(dāng)挖掘所需的數(shù)據(jù)可供使用時,往往需要在真正進行挖掘前做一些準備工作。對于是否需要做這些準備工作,大部分在數(shù)據(jù)分析步驟中進行評估。,數(shù)據(jù)質(zhì)量,數(shù)據(jù)顯示出一些特定的值,叫做偏離點,它們遠離預(yù)期的正常范圍。這些值可用多種方法來處理:如果它們?nèi)栽诂F(xiàn)實中存在的話,對這些數(shù)據(jù)取對數(shù)可以將它們轉(zhuǎn)化到較小的范圍。否則可以將包含這些值的記錄除去,或者將所有
20、記錄中的相關(guān)屬性除去。,空缺值,一個更常見的問題是空缺值。此外,有些記錄的值可能空缺,或者某一個屬性可能會有大量的空缺值。對第一種情況,可以不使用這些記錄;對第二種情況,可以丟棄這個屬性。,猜測空缺值,另一種處理空缺值的方法是歸咎(imputation)??梢杂脦追N技術(shù)來猜測空缺值,下面是一些相關(guān)技術(shù),復(fù)雜度逐漸增加:從別的記錄中隨機抽取一個值添入。取其他記錄中對應(yīng)屬性的最頻值,中間數(shù)或平均數(shù)。對其他記錄中這個屬性的值分布做
21、一個統(tǒng)計模型,然后根據(jù)分布情況,隨機選一個值。試圖用統(tǒng)計或挖掘技術(shù)從相似記錄的值中預(yù)估空缺值。,數(shù)據(jù)預(yù)處理,,數(shù)據(jù)中的不一致性,數(shù)據(jù)挖掘能夠有效地處理數(shù)據(jù)中的不一致性。即使源數(shù)據(jù)是干凈的、整合的和經(jīng)過驗證的,它們?nèi)杂锌赡馨F(xiàn)實世界的不真實的數(shù)據(jù)。有效認識和解決數(shù)據(jù)質(zhì)量相關(guān)問題的唯一辦法,就是企業(yè)對內(nèi)部處理流程進行監(jiān)視、分析和報告。美國硬盤生產(chǎn)商Maxtor公司的首期信息長官斯考特.??栒f “商務(wù)智能最大的困難在于需要確保用于總
22、結(jié)性分析和儀表板中的最底層的數(shù)據(jù)永遠干凈、一致并相關(guān)。我們需要數(shù)據(jù)倉庫具備自我治療能力,能夠自動地感應(yīng)、偵查、通告和維修任何不正確、缺失或未經(jīng)核對的數(shù)據(jù)因素。但這至少需要一到兩年才會發(fā)生?!?噪聲,這種噪聲可能是由用戶的錯誤輸入或是顧客填寫問卷時的筆誤造成的。如果這些錯誤不是發(fā)生的太頻繁,數(shù)據(jù)挖掘工具還是能夠忽略它們,并且找出數(shù)據(jù)中存在的整體模式。,臟數(shù)據(jù)形成的原因,濫用縮寫詞數(shù)據(jù)輸入錯誤不同的慣用語(如:ASAP對“at firs
23、t chance”)重復(fù)記錄丟失值拼寫變化不同的計量單位過時的編碼,,數(shù)據(jù)清洗 (客戶數(shù)據(jù)),Maggie.kline@future_electronics.com Margaret Smith-Kline phdFUTURE Electronics 5/23/03101 6th avemanhattanny10012001124367,,Salutation: Ms.First name: Margaret
24、Last name: Smith-KlinePostname: Ph. D.Match standards: Maggie, Peg, PeggyGender: Strong FemaleCompany name: Future ElectronicsAddress 1: 101 Avenue of the AmericasCity: New YorkState: NYZIP+4: 10013-1933Email:
25、maggie.kline@future_electronics.comSSN: 001-12-4367Date May 23, 2003,輸入記錄,輸出記錄,,Ms Margaret Smith-Kline Ph.D.Future Electronics101 Avenue of the AmericasNew York NY 10013-1933maggie.kline@future_electronics.comMay
26、 23, 2003,,姓名: Ms. Margaret Smith-Kline Ph.D.公司名: Future Electronics Co. LLC社會保障號: 001-12-4367購買日期: 5/23/2003地址: 101 Avenue of the AmericasNew York, NY 10013-1933緯度: 40.722970經(jīng)度: -74.005035Fed code: 36061電話: (22
27、2) 922-9922Email: maggie.kline@future_electronics.com,輸入記錄,合并的記錄,,Maggie SmithFuture Electronics Co. LLC101 6th Ave.Manhattan, NY 10012maggie.kline@future_electronics.com001-12-4367,,Ms. Peg KlineFuture Elect. Co.
28、101 6th Ave.New York NY 10013001-12-4367(222) 922-99225/23/03,,,,,匹配和合并,數(shù)據(jù)清理處理內(nèi)容,格式標(biāo)準化異常數(shù)據(jù)清除錯誤糾正重復(fù)數(shù)據(jù)的清除,屬性間的相互依賴性,數(shù)據(jù)挖掘?qū)瑫r從不同角度來看待數(shù)據(jù)。這就防止了把某些自身看起來好像不相關(guān)的屬性丟棄的情況。數(shù)據(jù)挖掘?qū)l(fā)現(xiàn)屬性間的相互依賴性,這些相互依賴性往往需要提取數(shù)據(jù)中的所有相關(guān)信息,甚至是隱藏在多個屬
29、性的組合中。,結(jié)果解釋,對結(jié)果的解釋完全依賴于數(shù)據(jù)挖掘步驟的可視化輸出。對結(jié)果的解釋需要挖掘?qū)<液皖I(lǐng)域?qū)<业木o密合作。他們一起將技術(shù)的結(jié)果解釋為商業(yè)的意義,并且評價從這些結(jié)果中得出結(jié)論的正確性。當(dāng)結(jié)果從技術(shù)上來說是正確的,但對商業(yè)上來說并不意味著任何有價值的東西的時候,有必要進行迭代。,商業(yè)應(yīng)用,一個例子就是預(yù)測所有客戶中的可創(chuàng)造高利潤的群體,必須決定如何去接近這些客戶,同時還要決定如何判斷他們是否像模型預(yù)測的那樣能帶來利潤。領(lǐng)域
30、專家依靠對挖掘結(jié)果解釋中的信息,來支持商業(yè)應(yīng)用的決定。在小公司中,領(lǐng)域?qū)<铱赡芫褪菦Q策者,但通常來說,決策者往往是一些顧問。 如果領(lǐng)域?qū)<覍Q策是否為挖掘結(jié)果所支持不是很確定,或者他和實際決策者中有任何的誤解,都需要回復(fù)到結(jié)果解釋階段。,商業(yè)反饋,商業(yè)環(huán)境中的結(jié)果被反饋到商業(yè)智能環(huán)境中,并和數(shù)據(jù)挖掘模型的輸出一起做分析。比如說,假設(shè)你郵寄活動的預(yù)測回復(fù)與實際回復(fù)作一個比較。當(dāng)你試圖了解是什么因素使得你對某些客戶的預(yù)測出現(xiàn)錯誤時,可能會
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 數(shù)據(jù)挖掘原理與算法01
- 數(shù)據(jù)庫系統(tǒng)原理數(shù)據(jù)挖掘與數(shù)據(jù)倉庫
- 多關(guān)系數(shù)據(jù)挖掘原理及應(yīng)用.pdf
- 大數(shù)據(jù)數(shù)據(jù)挖掘
- 數(shù)據(jù)挖掘
- 外文翻譯-----數(shù)據(jù)挖掘什么是數(shù)據(jù)挖掘?
- 大數(shù)據(jù)數(shù)據(jù)挖掘
- 大數(shù)據(jù)數(shù)據(jù)挖掘
- 基于GMDH原理的自組織數(shù)據(jù)挖掘模型研究.pdf
- 大數(shù)據(jù)與數(shù)據(jù)挖掘
- 大數(shù)據(jù)數(shù)據(jù)挖掘案例
- 大數(shù)據(jù)挖掘外文翻譯—大數(shù)據(jù)挖掘研究
- 數(shù)據(jù)挖掘2
- 數(shù)據(jù)挖掘 3
- 數(shù)據(jù)挖掘概述
- 數(shù)據(jù)挖掘試題
- 數(shù)據(jù)挖掘題
- 大數(shù)據(jù)數(shù)據(jù)挖掘案例
- 數(shù)據(jù)挖掘中的文本挖掘
- 數(shù)據(jù)挖掘?qū)嶒瀳蟾?數(shù)據(jù)挖掘的基本數(shù)據(jù)分析
評論
0/150
提交評論