數(shù)據(jù)挖掘 3_第1頁(yè)
已閱讀1頁(yè),還剩47頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、,《數(shù)據(jù)挖掘》廣東技術(shù)師范學(xué)院計(jì)科系 葉海山,2,,書 《數(shù)據(jù)挖掘概念與技術(shù)》作者: (加)JIAWEI HAN MICHELINE KAMBER 出版社: 機(jī)械工業(yè)出版社網(wǎng)站 1、數(shù)據(jù)倉(cāng)庫(kù)之路 http://www.dwway.com/ 2、數(shù)據(jù)挖掘討論組 http://www.dmgroup.org.cn/ 3、數(shù)據(jù)挖掘研究研 http://www.dmresearch.net/,3,第1章 緒論,1.1

2、初識(shí)數(shù)據(jù)挖掘1.2 初識(shí)數(shù)據(jù)倉(cāng)庫(kù)1.3 進(jìn)一步理解數(shù)據(jù)挖掘 1.4 數(shù)據(jù)挖掘應(yīng)用實(shí)例1.5 數(shù)據(jù)挖掘的發(fā)展趨勢(shì),4,第1章 緒論,數(shù)據(jù)挖掘(Data mining, DM)技術(shù)是一門綜合性的技術(shù)領(lǐng)域,主要涉及數(shù)據(jù)庫(kù)、人工智能和數(shù)理統(tǒng)計(jì)3個(gè)技術(shù)領(lǐng)域。,5,第1章 緒論,1.1 初識(shí)數(shù)據(jù)挖掘1.1.1數(shù)據(jù)挖掘的產(chǎn)生 產(chǎn)生的前提:從大量數(shù)據(jù)中找出隱藏在其中的、有用的信息和規(guī)律;計(jì)算機(jī)技術(shù)和信息技術(shù)的發(fā)展使其有能力處理這樣大量的數(shù)據(jù)

3、。,6,第1章 緒論,1.1.2數(shù)據(jù)挖掘的應(yīng)用價(jià)值 應(yīng)用數(shù)據(jù)挖掘從大量數(shù)據(jù)中所發(fā)現(xiàn)的規(guī)律并不是“放置四海而皆準(zhǔn)”的規(guī)律,而是面向某一應(yīng)用的規(guī)律,具有具體的指導(dǎo)意義。 成功例子: 零售業(yè)的沃爾馬“啤酒與尿布”規(guī)律 Google 中國(guó)寶山鋼鐵公司1995年開始利用數(shù)據(jù)挖掘技術(shù)提高熱軋產(chǎn)品質(zhì)量、合理配礦 中國(guó)鐵道部1998年開始利用數(shù)據(jù)挖掘技術(shù)分析春運(yùn)期間的鐵路客流量,挖掘影響鐵路客運(yùn)總量的關(guān)鍵因素 ……,

4、7,第1章 緒論,1.1.3數(shù)據(jù)挖掘的發(fā)展過程 八十年代人工智能(AI)研究項(xiàng)目失敗后,轉(zhuǎn)入實(shí)際應(yīng)用時(shí)提出的。 1989年國(guó)際上第一次關(guān)于數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)的研討會(huì)在美國(guó)的底特律召開,在此次會(huì)議上第一次提出了知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database, KDD)一詞。 1995年,在加拿大召開了第一屆KDD和DM國(guó)際學(xué)術(shù)會(huì)議。會(huì)議對(duì)KDD做了確切的定義 。 從九十年代中后期開始,

5、KDD和DM已成為研究的熱點(diǎn)和焦點(diǎn)。,8,,,9,第1章 緒論,1.1.4 數(shù)據(jù)挖掘的定義 數(shù)據(jù)挖掘:從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。 原始數(shù)據(jù)可以是結(jié)構(gòu)化的也可以是半結(jié)構(gòu)化的。 發(fā)現(xiàn)知識(shí)的方法可以是數(shù)學(xué)的,也可以是非數(shù)學(xué)的;可以是演繹的,也可以是歸納的。,10,第1章 緒論,1.2 初識(shí)數(shù)據(jù)倉(cāng)庫(kù)1.2.1 數(shù)據(jù)倉(cāng)庫(kù)的產(chǎn)生

6、1988年IBM愛爾蘭公司第一次提出了“信息倉(cāng)庫(kù)”的概念。 90年代初數(shù)據(jù)倉(cāng)庫(kù)的基本原理、框架架構(gòu),分析系統(tǒng)的主要原則都已經(jīng)確定,主要的技術(shù)已具備,一些公司開始建立數(shù)據(jù)倉(cāng)庫(kù)。 92年美國(guó)著名的信息工程學(xué)家William H.Inmon 在《Building the Data Warehouse》(《建立數(shù)據(jù)倉(cāng)庫(kù)》)一書中首先系統(tǒng)的闡述了數(shù)據(jù)倉(cāng)庫(kù)的思想、理論。被人們尊稱為“數(shù)據(jù)倉(cāng)庫(kù)之父”。,11,第1章 緒論,1.2.2

7、數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用價(jià)值 傳統(tǒng)數(shù)據(jù)庫(kù)的處理方式——聯(lián)機(jī)事務(wù)處理(On Line Transaction Process,OLTP)與決策分析中的數(shù)據(jù)需求不相稱,主要表現(xiàn)在: 1.決策處理的系統(tǒng)響應(yīng)問題 2.決策數(shù)據(jù)需求的問題 3.決策數(shù)據(jù)操作的問題 決策分析需要一個(gè)能夠不受傳統(tǒng)事務(wù)處理的約束、高效率處理決策分析數(shù)據(jù)的支持環(huán)境,這就是DW存在的價(jià)值。,12,第1章 緒論,1.2.3數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展過程

8、 1995年開始盛行,作為數(shù)據(jù)庫(kù)的高端擴(kuò)展技術(shù)一直是一大熱點(diǎn)。 IBM所推崇的商業(yè)智能(BI)核心就是數(shù)據(jù)倉(cāng)庫(kù); 微軟的SQL Server 7.0 已經(jīng)綁定了OLAP服務(wù)器,將數(shù)據(jù)倉(cāng)庫(kù)功能集成到數(shù)據(jù)庫(kù)中,并建立了數(shù)據(jù)倉(cāng)庫(kù)聯(lián)盟; Oracle公司的Oracle Express系列OLAP產(chǎn)品用來提供決策支持。,13,第1章 緒論,1.2.4 數(shù)據(jù)倉(cāng)庫(kù)的定義W.H.Inmon的定義:數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集

9、成的、非易失的且隨時(shí)間變化的數(shù)據(jù)集合,用來支持管理人員的決策。公認(rèn)的定義:數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse,DW)是面向主題的、集成的、不可更新的(穩(wěn)定性)隨時(shí)間不斷變化(不同時(shí)間)的數(shù)據(jù)集合,用以支持經(jīng)營(yíng)管理中的決策制定過程。,14,第1章 緒論,1.2.5 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的關(guān)系1.DW系統(tǒng)的數(shù)據(jù)可以作為DM的數(shù)據(jù)源 DW系統(tǒng)能夠滿足DM技術(shù)對(duì)數(shù)據(jù)環(huán)境的要求,可以直接作為DM的數(shù)據(jù)源。 2.DM的數(shù)據(jù)源不一定必須是

10、DW系統(tǒng) DM的數(shù)據(jù)源不一定必須是DW,可以是任何數(shù)據(jù)文件或格式,但必須事先進(jìn)行數(shù)據(jù)預(yù)處理,處理成適合DM的數(shù)據(jù)。,15,第1章 緒論,1.3 進(jìn)一步理解數(shù)據(jù)挖掘 1.3.1數(shù)據(jù)挖掘的功能(7個(gè)方面):1.概念描述:對(duì)某類對(duì)象的內(nèi)涵進(jìn)行描述,并概括這類對(duì)象的有關(guān)特征。(1)特征性描述——共同特征(2)區(qū)別性描述——相互區(qū)別2.關(guān)聯(lián)分析 若兩個(gè)或多個(gè)變量間存在著某種規(guī)律性,就稱為關(guān)聯(lián)。 關(guān)聯(lián)分析的目的就是找出數(shù)據(jù)中隱

11、藏的關(guān)聯(lián)網(wǎng)。,16,第1章 緒論,3.分類與預(yù)測(cè)(1)分類——依照所分析對(duì)象的屬性分門別類,加以定義,建立組類。(2)預(yù)測(cè)——利用歷史數(shù)據(jù)建立模型,再運(yùn)用最新數(shù)據(jù)作為輸入值,獲得未來變化的趨勢(shì)或者評(píng)估給定樣本可能具有的屬性值或值的范圍。4.聚類分析 客觀地按被處理對(duì)象的特征分類,將有相同特征的對(duì)象歸為一類。5.趨勢(shì)分析 趨勢(shì)分析——時(shí)間序列分析,從相當(dāng)長(zhǎng)的時(shí)間的發(fā)展中發(fā)現(xiàn)規(guī)律和趨勢(shì)。,17,第1章 緒論,6.孤立點(diǎn)分析

12、 孤立點(diǎn):數(shù)據(jù)庫(kù)中包含的一些與數(shù)據(jù)的一般行為或模型不一致的數(shù)據(jù)。7.偏差分析 偏差分析——比較分析,是對(duì)差異和極端特例的描述,揭示事物偏離常規(guī)的異?,F(xiàn)象,18,第1章 緒論,1.3.2 數(shù)據(jù)挖掘常用技術(shù)1.聚類檢測(cè)方法 無指導(dǎo)的知識(shí)發(fā)現(xiàn)或無監(jiān)督學(xué)習(xí),使同一個(gè)簇內(nèi)的任意兩個(gè)對(duì)象之間具有較高的相似性,不同簇間的兩個(gè)對(duì)象之間具有較高的相異性。,19,第1章 緒論,2.決策樹方法 應(yīng)用于分類和預(yù)測(cè),提供了一種展示在什么條件

13、下會(huì)得到什么值這類規(guī)則的方法,一個(gè)決策樹表示一系列的問題,每個(gè)問題決定了繼續(xù)下去的問題會(huì)是什么。 適合于處理非數(shù)值型數(shù)據(jù),需要在生成決策樹后再對(duì)決策樹進(jìn)行剪枝處理,最后將決策樹轉(zhuǎn)化為規(guī)則,用于對(duì)新事例進(jìn)行分類。,20,第1章 緒論,3.人工神經(jīng)網(wǎng)絡(luò)方法 主要用于分類、聚類、特征挖掘、預(yù)測(cè)等方面。通過向一個(gè)訓(xùn)練數(shù)據(jù)集學(xué)習(xí)和應(yīng)用所學(xué)知識(shí)生成分類和預(yù)測(cè)的模式。 神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)分為輸入層、輸出層和隱含層(中間層)。

14、 人工神經(jīng)網(wǎng)絡(luò)方法:前饋式網(wǎng)絡(luò)、反饋式網(wǎng)絡(luò)和自組織網(wǎng)絡(luò)。,21,第1章 緒論,4.遺傳算法 模仿人工選擇培育良種的思路,從一個(gè)初始規(guī)則集合開始,迭代的通過交換對(duì)象成員產(chǎn)生群體(繁殖),評(píng)估并擇優(yōu)復(fù)制逐代積累計(jì)算,最終得到最有價(jià)值的知識(shí)集。 遺傳算法基本算子: 繁殖——從舊種群選擇生命力強(qiáng)的個(gè)體產(chǎn)生新種群 交叉——選擇兩個(gè)不同個(gè)體的部分進(jìn)行交換,形成新個(gè)體 變異——對(duì)某些個(gè)體的某些基因進(jìn)行變異,22,5.關(guān)

15、聯(lián)分析方法,適合于從關(guān)系中挖掘知識(shí)包含:(1)關(guān)聯(lián)發(fā)現(xiàn)算法:得到關(guān)聯(lián)規(guī)則、找出關(guān)聯(lián)組合,在關(guān)聯(lián)組合中,如果出現(xiàn)某一項(xiàng),則另一項(xiàng)也會(huì)出現(xiàn)。(2)序列模式發(fā)現(xiàn)算法:發(fā)現(xiàn)在時(shí)間序列上,一個(gè)項(xiàng)目集之后的項(xiàng)目集是什么,即找到時(shí)間上連續(xù)的事件。(3)類似的時(shí)序發(fā)現(xiàn)算法:先找到一個(gè)事件順序,再推測(cè)出其他類似的事件順序。,23,第1章 緒論,6.基于記憶的推理算法 使用一個(gè)模型的已知實(shí)例(基本數(shù)據(jù)集或訓(xùn)練數(shù)據(jù)集)來預(yù)測(cè)未知的實(shí)例

16、。,24,1.3.3 數(shù)據(jù)挖掘的過程,,1.確定業(yè)務(wù)對(duì)象2.數(shù)據(jù)準(zhǔn)備:數(shù)據(jù)的選擇、數(shù)據(jù)的預(yù)處理和數(shù)據(jù)的轉(zhuǎn)換。3.數(shù)據(jù)挖掘4.結(jié)果分析及知識(shí)同化,25,典型數(shù)據(jù)挖掘系統(tǒng)的體系結(jié)構(gòu),,,,,,數(shù)據(jù)倉(cāng)庫(kù),,,,,,,,數(shù)據(jù)清洗,過濾,,,,,數(shù)據(jù)庫(kù),,,數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器,數(shù)據(jù)挖掘引擎,模式評(píng)估,圖形用戶界面,,,,,,,,,,知識(shí)庫(kù),數(shù)據(jù)集成,26,并非所有的東西都是數(shù)據(jù)挖掘,基于數(shù)據(jù)倉(cāng)庫(kù)的OLAP系統(tǒng)OLAP系統(tǒng)專注于數(shù)據(jù)的匯

17、總,而數(shù)據(jù)挖掘系統(tǒng)可以對(duì)數(shù)據(jù)進(jìn)行多種復(fù)雜的處理。機(jī)器學(xué)習(xí)系統(tǒng),數(shù)據(jù)統(tǒng)計(jì)分析系統(tǒng)這些系統(tǒng)所處理的數(shù)據(jù)容量往往很有限。信息系統(tǒng)專注于當(dāng)前數(shù)據(jù)的查詢處理,服務(wù)于日常應(yīng)用。相比于上述系統(tǒng),數(shù)據(jù)挖掘系統(tǒng)關(guān)注更廣的范圍,是一個(gè)多學(xué)科的融合。,27,在何種數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘(數(shù)據(jù)源),關(guān)系數(shù)據(jù)庫(kù)RDBMS數(shù)據(jù)倉(cāng)庫(kù)事務(wù)數(shù)據(jù)庫(kù)高級(jí)數(shù)據(jù)庫(kù)系統(tǒng)和信息庫(kù)空間數(shù)據(jù)庫(kù)時(shí)間數(shù)據(jù)庫(kù)和時(shí)間序列數(shù)據(jù)庫(kù)流數(shù)據(jù)多媒體數(shù)據(jù)庫(kù)面向?qū)ο髷?shù)據(jù)庫(kù)和對(duì)象-關(guān)系

18、數(shù)據(jù)庫(kù)異種數(shù)據(jù)庫(kù)和歷史(legacy)數(shù)據(jù)庫(kù)文本數(shù)據(jù)庫(kù)和萬維網(wǎng)(WWW),28,1.關(guān)系數(shù)據(jù)庫(kù),DBMS--相互關(guān)聯(lián)的數(shù)據(jù)集合和一套用于管理和訪問數(shù)據(jù)的軟件程序,建立數(shù)據(jù)庫(kù)結(jié)構(gòu)定義、數(shù)據(jù)存儲(chǔ)、并發(fā)、共享、分布式訪問、保證信息存儲(chǔ)一致性和安全性的機(jī)制。數(shù)據(jù)庫(kù)(Database)由一系列表(Table)組成,其中Table是一個(gè)行列二維表結(jié)構(gòu)。數(shù)據(jù)挖掘在DBMS中的作用用SQL可以做什么?

19、 –上個(gè)季度賣出了什么商品?–給我列出上月每個(gè)部門的總銷售量–哪個(gè)銷售員賣出的商品最多Data Mining又能做什么?–預(yù)測(cè)新顧客的信譽(yù)風(fēng)險(xiǎn)–檢查商品銷售變差的原因它是數(shù)據(jù)挖掘研究的主要數(shù)據(jù)形式,29,2.數(shù)據(jù)倉(cāng)庫(kù),從多個(gè)數(shù)據(jù)源搜集數(shù)據(jù),存儲(chǔ)于一個(gè)統(tǒng)一的數(shù)據(jù)模式下,通常駐留在單一站點(diǎn)。特點(diǎn): 面向主題的,集成的,時(shí)變的,非易失的;,30,3.事務(wù)數(shù)據(jù)庫(kù),存儲(chǔ)事務(wù)信息的數(shù)據(jù)庫(kù),由一個(gè)文件組成,其中每個(gè)記錄

20、代表一個(gè)事務(wù)。,31,空間數(shù)據(jù)庫(kù),空間數(shù)據(jù)庫(kù)是指在關(guān)系型數(shù)據(jù)庫(kù)(DBMS)內(nèi)部對(duì)地理信息進(jìn)行物理存儲(chǔ)??臻g數(shù)據(jù)庫(kù)中存儲(chǔ)的海量數(shù)據(jù)包括對(duì)象的空間拓?fù)涮卣?、非空間屬性特征以及對(duì)象在時(shí)間上的狀態(tài)變化。用途–森林和生態(tài)環(huán)境計(jì)劃–提供公共設(shè)施(電話、電纜、管道、污水排放)信息數(shù)據(jù)挖掘技術(shù)的應(yīng)用:–回答某一區(qū)域的居民分布情況–分析氣候、交通等因素對(duì)城市居民遷移的作用,32,時(shí)間數(shù)據(jù)庫(kù)和時(shí)序數(shù)據(jù)庫(kù),兩者都存儲(chǔ)與時(shí)間有關(guān)的數(shù)據(jù)時(shí)間數(shù)據(jù)庫(kù)通

21、常存放包含時(shí)間相關(guān)屬性的數(shù)據(jù)。時(shí)序數(shù)據(jù)庫(kù)存放隨時(shí)間變化的值序列(例如:股票交易) 。數(shù)據(jù)挖掘的作用,可以通過研究事物發(fā)生發(fā)展的過程,有助于揭示事物發(fā)展的本質(zhì)規(guī)律,可以發(fā)現(xiàn)數(shù)據(jù)對(duì)象的演變特征或?qū)ο笞兓厔?shì)。–發(fā)現(xiàn)對(duì)象演化特征和變化趨勢(shì)–銀行根據(jù)顧客流量調(diào)度銀行操作–股票投資決策,33,流數(shù)據(jù),與傳統(tǒng)的數(shù)據(jù)庫(kù)技術(shù)中的靜態(tài)數(shù)據(jù)不同,流數(shù)據(jù)是連續(xù)的、有序的、變化的、快速的、大量的數(shù)據(jù)輸入的數(shù)據(jù)。主要應(yīng)用場(chǎng)合網(wǎng)絡(luò)監(jiān)控網(wǎng)頁(yè)點(diǎn)擊流流媒

22、體…等等與傳統(tǒng)數(shù)據(jù)庫(kù)技術(shù)相比,流數(shù)據(jù)在存儲(chǔ)、查詢、訪問、實(shí)時(shí)性的要求等方面都有很大區(qū)別。,34,多媒體數(shù)據(jù)庫(kù),多媒體數(shù)據(jù)庫(kù)實(shí)現(xiàn)用計(jì)算機(jī)管理龐大復(fù)雜的多媒體數(shù)據(jù),主要包括包括圖形(graphics)、圖象(image)、聲音(audio)、視頻(video)等等,現(xiàn)代數(shù)據(jù)庫(kù)技術(shù)一般將這些多媒體數(shù)據(jù)以二進(jìn)制大對(duì)象的形式進(jìn)行存儲(chǔ)。對(duì)于多媒體數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘,需要將存儲(chǔ)和檢索技術(shù)相結(jié)合。目前的主要方法包括構(gòu)造多媒體數(shù)據(jù)立方體、多媒體數(shù)據(jù)庫(kù)的

23、多特征提取和基于相似性的模式匹配。,35,面向?qū)ο髷?shù)據(jù)庫(kù)和對(duì)象-關(guān)系數(shù)據(jù)庫(kù),面向?qū)ο髷?shù)據(jù)庫(kù)是面向?qū)ο蠹夹g(shù)和數(shù)據(jù)庫(kù)技術(shù)結(jié)合的產(chǎn)物,該技術(shù)對(duì)數(shù)據(jù)以對(duì)象的形式進(jìn)行存儲(chǔ),并在這個(gè)基礎(chǔ)上實(shí)現(xiàn)了傳統(tǒng)數(shù)據(jù)庫(kù)的功能,包括持久性、并發(fā)控制、可恢復(fù)性、一致性和查詢數(shù)據(jù)庫(kù)的能力等。對(duì)象-關(guān)系數(shù)據(jù)庫(kù)基于對(duì)象-關(guān)系模型構(gòu)造,該模型通過處理復(fù)雜對(duì)象的豐富數(shù)據(jù)類型和對(duì)象定位等功能,擴(kuò)充關(guān)系模型。面向?qū)ο髷?shù)據(jù)庫(kù)和對(duì)象-關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)挖掘會(huì)涉及一些新的技術(shù),比如

24、處理復(fù)雜對(duì)象結(jié)構(gòu)、復(fù)雜數(shù)據(jù)類型、類和子類層次結(jié)構(gòu)、構(gòu)造繼承以及方法和過程等等。,36,異構(gòu)數(shù)據(jù)庫(kù)和歷史遺留(legacy)數(shù)據(jù)庫(kù),歷史遺留數(shù)據(jù)庫(kù)是隨著信息技術(shù)發(fā)展中所保留下來的一系列數(shù)據(jù)庫(kù)是十分有用的。這些數(shù)據(jù)庫(kù)可能是關(guān)系數(shù)據(jù)庫(kù)、層次數(shù)據(jù)庫(kù)、網(wǎng)狀數(shù)據(jù)庫(kù)、文件系統(tǒng)等等。數(shù)據(jù)挖掘必須處理各種數(shù)據(jù)庫(kù)間的轉(zhuǎn)換問題 WEB SERVICE技術(shù)的出現(xiàn)有利于異構(gòu)數(shù)據(jù)庫(kù)數(shù)據(jù)的重新利用。,37,文本數(shù)據(jù)庫(kù)和萬維網(wǎng)(WWW),文本數(shù)據(jù)庫(kù)存儲(chǔ)的是對(duì)對(duì)象的

25、文字性描述,通常是長(zhǎng)句和段落,如作者信息、錯(cuò)誤報(bào)告等。文本數(shù)據(jù)庫(kù)的分類無結(jié)構(gòu)類型(大部分的文本資料和網(wǎng)頁(yè))半結(jié)構(gòu)類型(XML數(shù)據(jù))結(jié)構(gòu)類型(圖書館數(shù)據(jù))萬維網(wǎng)(WWW)可以被看成最大的文本數(shù)據(jù)庫(kù)非結(jié)構(gòu)化、缺乏統(tǒng)一的模式前景樂觀、困難教多數(shù)據(jù)挖掘內(nèi)容WEB內(nèi)容檢索WEB結(jié)構(gòu)檢索WEB訪問模式檢索,38,1.4 數(shù)據(jù)挖掘應(yīng)用實(shí)例,1.4.1 應(yīng)用領(lǐng)域 1.金融業(yè) 2.保險(xiǎn)業(yè) 3.零售業(yè) 4.科學(xué)研究

26、 5.其他領(lǐng)域1.4.2 典型案例,39,數(shù)據(jù)挖掘在企業(yè)的應(yīng)用——市場(chǎng)分析和管理,數(shù)據(jù)從那里來?信用卡交易, 會(huì)員卡, 商家的優(yōu)惠卷, 消費(fèi)者投訴電話, 公眾生活方式研究目標(biāo)市場(chǎng)構(gòu)建一系列的“客戶群模型”,這些顧客具有相同特征: 興趣愛好, 收入水平, 消費(fèi)習(xí)慣,等等確定顧客的購(gòu)買模式應(yīng)用1:交叉市場(chǎng)分析貨物銷售之間的相互聯(lián)系和相關(guān)性,以及基于這種聯(lián)系上的預(yù)測(cè),40,,應(yīng)用2:顧客分析哪類顧客購(gòu)買那種商品 (聚類分析或分

27、類預(yù)測(cè))應(yīng)用3:客戶需求分析確定適合不同顧客的最佳商品預(yù)測(cè)何種因素能夠吸引新顧客應(yīng)用4:提供概要信息多維度的綜合報(bào)告統(tǒng)計(jì)概要信息 (數(shù)據(jù)的集中趨勢(shì)和變化),41,數(shù)據(jù)挖掘在企業(yè)的應(yīng)用——公司分析和風(fēng)險(xiǎn)管理,財(cái)務(wù)計(jì)劃現(xiàn)金流轉(zhuǎn)分析和預(yù)測(cè)交叉區(qū)域分析和時(shí)間序列分析(財(cái)務(wù)資金比率,趨勢(shì)分析等等)資源計(jì)劃總結(jié)和比較資源和花費(fèi)競(jìng)爭(zhēng)對(duì)競(jìng)爭(zhēng)者和市場(chǎng)趨勢(shì)的監(jiān)控 將顧客按等級(jí)分組和基于等級(jí)的定價(jià)過程將定價(jià)策略應(yīng)用于競(jìng)爭(zhēng)更激烈的市

28、場(chǎng)中,42,數(shù)據(jù)挖掘在企業(yè)的應(yīng)用——欺詐行為檢測(cè)和異常模式的發(fā)現(xiàn),方法: 對(duì)欺騙行為進(jìn)行聚類和建模,并進(jìn)行孤立點(diǎn)分析應(yīng)用: 保險(xiǎn)、衛(wèi)生保健、零售業(yè)、信用卡服務(wù)、電信等汽車保險(xiǎn): 對(duì)相撞事件的分析 ,發(fā)掘索賠是否是欺詐行為洗錢: 發(fā)現(xiàn)可疑的貨幣交易行為 醫(yī)療保險(xiǎn)職業(yè)病人, 醫(yī)生以及相關(guān)數(shù)據(jù)分析不必要的或相關(guān)的測(cè)試電信: 電話呼叫欺騙行為電話呼叫模型: 呼叫目的地,持續(xù)時(shí)間,日或周呼叫次數(shù). 分析該模型發(fā)現(xiàn)與期待標(biāo)準(zhǔn)的偏差

29、零售產(chǎn)業(yè)分析師估計(jì)有38%的零售額下降是由于雇員的不誠(chéng)實(shí)行為造成的,43,反思1:所有模式都是有趣的嗎?,數(shù)據(jù)挖掘可能產(chǎn)生數(shù)以千計(jì)的模式或規(guī)則,但并不是所有的模式或規(guī)則都是令人感興趣的。模式興趣度的度量一個(gè)模式是有趣的,則其滿足四個(gè)條件:它易于被人理解 ;在某種程度上,對(duì)于新的或測(cè)試數(shù)據(jù)是有效的;具有潛在效用;新穎的;模式興趣度的客觀和主觀度量客觀度量: 基于所發(fā)現(xiàn)模式的結(jié)構(gòu)和關(guān)于它們的統(tǒng)計(jì), 比如: 支持度Supp

30、ort、置信度Confidence等等主觀度量: 基于用戶對(duì)數(shù)據(jù)的判斷。比如:出乎意料的、新穎的、可行動(dòng)的等等,44,反思2:能夠產(chǎn)生所有有趣模式并且僅產(chǎn)生有趣模式嗎?,找出所有有趣的模式: 數(shù)據(jù)挖掘算法的完全性問題數(shù)據(jù)挖掘系統(tǒng)能夠產(chǎn)生所有有趣的模式嗎?試探搜索 vs.窮舉搜索關(guān)聯(lián) vs. 分類 vs. 聚類只搜索有趣的模式: 數(shù)據(jù)挖掘算法的最優(yōu)化問題數(shù)據(jù)挖掘系統(tǒng)可以僅僅發(fā)現(xiàn)有趣的模式嗎?方法首先生成所有模式然后過濾那些

31、無趣的.僅僅生成有趣的模式—挖掘查詢優(yōu)化,45,數(shù)據(jù)挖掘系統(tǒng)的分類,數(shù)據(jù)挖掘的多學(xué)科融合的特性,決定了數(shù)據(jù)挖掘的研究將產(chǎn)生種類繁多的數(shù)據(jù)挖掘系統(tǒng)。根據(jù)所挖掘的數(shù)據(jù)庫(kù)分類關(guān)系數(shù)據(jù)庫(kù),事務(wù)數(shù)據(jù)庫(kù),流式數(shù)據(jù),面向?qū)ο髷?shù)據(jù)庫(kù),對(duì)象關(guān)系數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù),空間數(shù)據(jù)庫(kù),時(shí)序數(shù)據(jù)庫(kù),文本數(shù)據(jù)庫(kù),多媒體數(shù)據(jù)庫(kù),異構(gòu)數(shù)據(jù)庫(kù),歷史數(shù)據(jù)庫(kù),WWW,46,,根據(jù)挖掘的知識(shí)類型特征分析, 區(qū)分, 關(guān)聯(lián)分析, 分類聚類, 孤立點(diǎn)分析/演變分析, 偏差分析等等

32、.多種方法的集成和多層機(jī)挖掘根據(jù)挖掘所用的技術(shù)面向數(shù)據(jù)庫(kù)的挖掘、數(shù)據(jù)倉(cāng)庫(kù) 、OLAP、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、可視化等等.根據(jù)挖掘所用的應(yīng)用金融,電信,銀行, 欺詐分析, DNA分析,股票市場(chǎng), Web挖掘等等.,47,1.5 數(shù)據(jù)挖掘的發(fā)展趨勢(shì),1.5.1 數(shù)據(jù)挖掘研究方向?qū)iT用于知識(shí)發(fā)現(xiàn)的形式化和標(biāo)準(zhǔn)化的數(shù)據(jù)挖掘語(yǔ)言;數(shù)據(jù)挖掘過程中的便于用戶理解的及人機(jī)交互的可視化方法;網(wǎng)絡(luò)環(huán)境下的數(shù)據(jù)挖掘技術(shù);加強(qiáng)對(duì)各種非結(jié)構(gòu)化數(shù)據(jù)的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論