數(shù)據(jù)挖掘項目實施中的關(guān)鍵環(huán)節(jié)_第1頁
已閱讀1頁,還剩122頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘項目實施中的關(guān)鍵環(huán)節(jié),深圳華策輝弘科技有限公司專業(yè)服務(wù)部2007 – 12 -13,2,公司介紹,華策輝弘科技有限公司致力于商業(yè)數(shù)據(jù)分析的咨詢服務(wù),由具備豐富的國際、國內(nèi)項目經(jīng)驗的國內(nèi)外資深專家創(chuàng)辦。公司有一支業(yè)界不多見的高水準(zhǔn)咨詢服務(wù)專業(yè)團隊,項目的經(jīng)驗覆蓋亞洲太平洋地區(qū)包括中國、澳洲、香港、泰國、馬來西亞等地的金融業(yè)、電訊業(yè)以及零售業(yè),為這些不同國家和不同行業(yè)的客戶提供商業(yè)信息及分析性解決方案。,3,公司介紹,華策輝弘

2、科技有限公司歷史1997 – 2002, 共同創(chuàng)始人 Eric 工作于SAS中國,Dick工作于SAS香港 2002 – 2004, 獨立進行咨詢顧問工作2004 – 2006, Eric在北京創(chuàng)建了華策未來, Dick在香港創(chuàng)建了萬訊奧義2006 – 至今, 在深圳合并,成立了華策輝弘業(yè)務(wù)范圍關(guān)于決策支持系統(tǒng)/客戶關(guān)系管理/數(shù)據(jù)挖掘/信用評分/分析的咨詢項目,其主要客戶是金融業(yè)和通訊行業(yè)

3、 基于SAS工具的數(shù)據(jù)處理和分析的開發(fā)服務(wù) 提供針對SAS 編程人員/分析師/設(shè)計師的培訓(xùn),4,團隊成員,核心團隊成員大都擁有超過八年以上有關(guān)各項服務(wù)的經(jīng)驗﹐同時具備應(yīng)用SAS軟件八年以上的經(jīng)驗﹐在銀行業(yè)、電訊業(yè)與保險業(yè)也有豐富的行業(yè)經(jīng)驗, 所擔(dān)任的角色分別從市場分析及報告到風(fēng)險評估及管理。團隊成員曾經(jīng)奪得第二屆國際智能數(shù)據(jù)分析比賽冠軍。專家團隊中有來自英國皇家統(tǒng)計學(xué)會的注冊統(tǒng)計師。,5,團隊成員在亞太地

4、區(qū)及澳大利亞的各行業(yè)中的經(jīng)驗,銀行業(yè)中國工商銀行中國招商銀行中國建設(shè)銀行中國交通銀行 中國中信銀行中國國家開發(fā)銀行中國廣東發(fā)展銀行中國人民銀行中國平安保險中國證監(jiān)會,日本JCB澳洲國民銀行 澳洲Westpac銀行 香港上海匯豐銀行 渣打銀行 美國大通信用卡 大新銀行 中國銀行信用卡(國際)有限公司 海外信托銀行有限公司 永享銀行 香港星展銀行 亞洲聯(lián)合財務(wù)有限公司 泰國Ayudhya銀行泰

5、國Siam City 銀行,6,電訊行業(yè)中國移動有限公司 中國聯(lián)通有限公司 澳洲Optus電訊有限公司 香港電訊(PCCW)有限公司 香港和記黃埔有限公司 香港和記環(huán)球電訊有限公司 香港數(shù)碼通移動通訊有限公司 泰國電訊有限公司 泰國AIS電訊有限公司 馬來西亞Maxis電訊有限公司,團隊成員在亞太地區(qū)及澳大利亞的各行業(yè)中的經(jīng)驗,7,團隊成員在亞太地區(qū)及澳大利亞的各行業(yè)中的經(jīng)驗,保險業(yè)澳洲MBF保險, 澳洲蘇黎世保

6、險 零售業(yè)百佳超級市場, 加德士澳洲有限公司政府部門香港特別行政區(qū)統(tǒng)計處, 香港貿(mào)易發(fā)展局 中國海關(guān)總署,半導(dǎo)體業(yè)摩托羅拉, 英特爾媒體調(diào)研行業(yè)蓋洛普(中國)有限公司北京電視臺特雷森信息中心,8,公司介紹,華策輝弘科技有限公司更多信息:請訪問公司網(wǎng)站www.sdat-asia.com或者與我們聯(lián)系: +86 755 3336 1183,9,,數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ摂?shù)據(jù)挖掘項目

7、實施流程專題1:業(yè)務(wù)目標(biāo)選定專題2:數(shù)據(jù)挖掘項目評估方法專題3:數(shù)據(jù)挖掘項目管理專題4:數(shù)據(jù)挖掘項目實施中的重要規(guī)范,主題,10,美國聯(lián)邦調(diào)查局(FBI)對地區(qū)調(diào)查員提交的大量報告進行審查,尋找和爆炸事件的聯(lián)系。.使用鏈路分析,聚類和規(guī)則歸納等分析方法來識別可能的線索。,現(xiàn)實世界中的數(shù)據(jù)挖掘可以用來干什么?—— 搜索制造爆炸的恐怖分子,數(shù)據(jù)挖掘概述,11,現(xiàn)實世界中的數(shù)據(jù)挖掘可以用來干什么?—— 誰會同意擴大軍費開

8、支?,美國國會對擴大軍費開支進行投票。普遍認(rèn)為有軍隊服役背景的議員會投贊成票,真實情況是這樣的嗎?,數(shù)據(jù)挖掘概述,12,就象解謎語一樣, 數(shù)據(jù)挖掘從大量復(fù)雜的數(shù)據(jù)中發(fā)現(xiàn)直接有效的信息和知識.,面對成千上萬的客戶, 如何滿足您最好的客戶 ? 如何把損失降到最低 ? 如何更有效地分配資源 ?,數(shù)據(jù)挖掘概述,13,數(shù)據(jù)分析的最初,數(shù)據(jù)分析能力受到計算能力和存儲能力的限制. 1959年,IBM大型機7090, 0.5 MHz 處理

9、器 0.2 MB內(nèi)存! 一個600行,4列的數(shù)據(jù)集需要約3000張打孔卡片! 分析時,一次同時考慮的變量最多達到25個!,數(shù)據(jù)挖掘概述,14,促進數(shù)據(jù)挖掘發(fā)展的要素,數(shù)據(jù) —— 大量的,運營型數(shù)據(jù)用戶和需求 ——業(yè)務(wù)決策支持的需求技術(shù)和方法 —— 計算能力的飛速發(fā)展 —— 多學(xué)科領(lǐng)域研究的發(fā)展,數(shù)據(jù)挖掘概述,15,數(shù)據(jù),試驗性的 運營性的,用途研究運營價值科學(xué)

10、商業(yè)產(chǎn)生主動控制被動記錄數(shù)據(jù)量小大質(zhì)量清潔骯臟狀態(tài)靜態(tài)動態(tài),數(shù)據(jù)挖掘概述,16,,數(shù)據(jù)洪水已經(jīng)來臨:,大量的數(shù)據(jù)在產(chǎn)生:金融、電信以及其它行業(yè)的交易數(shù)據(jù)科學(xué)實驗數(shù)據(jù):天文、空間探索、生物及高能物理等Web 數(shù)據(jù):文字、圖像及其它多媒體格式,數(shù)據(jù)挖掘概述,17,擁有16個望遠(yuǎn)鏡的歐洲長基線干擾儀在25天的觀察期中每秒鐘產(chǎn)生1G數(shù)據(jù)2003年,法國電信的呼叫數(shù)據(jù)為30TB,A

11、T&T以26TB的數(shù)據(jù)量位居第二,如此多的呼叫數(shù)據(jù)以致于AT&T無法全部保存,對數(shù)據(jù)的分析也只能是“粗略”的Google,40億以上的頁面(2004年4月統(tǒng)計),數(shù)據(jù)量為nTB據(jù)加州大學(xué)伯克利分校的研究人員統(tǒng)計,2002年新產(chǎn)生數(shù)據(jù)為1999年的2倍,而且數(shù)據(jù)的膨脹在不斷加速,,“天文”數(shù)據(jù)量:,數(shù)據(jù)挖掘概述,18,用戶和需求:對于復(fù)雜現(xiàn)象的簡單結(jié)論,市場 – 誰將會購買這個產(chǎn)品?預(yù)測 – 我們將面臨何種需求?

12、忠誠度 – 誰最有可能流失?信用 - 哪一類人群不還款的傾向嚴(yán)重? 欺詐 - 什么時候會發(fā)生?,數(shù)據(jù)挖掘概述,19,用戶和需求,通用 客戶分群客戶獲取/保留數(shù)據(jù)庫營銷客戶生命期價值 交叉銷售銀行信用記分信用卡欺詐發(fā)現(xiàn) 產(chǎn)品組合分析現(xiàn)金計劃保險& 醫(yī)療保健理賠分析欺詐行為,電信呼叫行為分析流失管理欺詐發(fā)現(xiàn)零售/市場菜籃子分析目錄管理信用記分制

13、造/公用事業(yè)流程管理質(zhì)量控制 需求模式資源計劃倉儲計劃,數(shù)據(jù)挖掘概述,20,數(shù)據(jù)挖掘概述,技術(shù)和方法—— 計算能力的飛速發(fā)展,Since 1963,,Moore’s Law:The information density on siliconintegrated circuits doubles every18 to 24 months.,Parkinson’s Law:Work expands to fil

14、l the timeavailable for its completion.,21,技術(shù)和方法—— 多學(xué)科領(lǐng)域研究的發(fā)展,廣泛的商業(yè)需求,需要出現(xiàn)一種挖掘數(shù)據(jù)背后隱藏的知識的手段。1989年8月在美國底特律召開的第11屆國際人工智能聯(lián)合會議的專題討論會上首次出現(xiàn)知識發(fā)現(xiàn)(KDD)這個術(shù)語,數(shù)據(jù)挖掘(DM)是知識發(fā)現(xiàn)(KDD)中的一個特定步驟和核心技術(shù) 數(shù)據(jù)挖掘的研究重點逐漸從發(fā)現(xiàn)方法轉(zhuǎn)向系統(tǒng)應(yīng)用,注重多種發(fā)現(xiàn)策略和技術(shù)的集成,

15、以及多種學(xué)科之間的相互滲透,現(xiàn)在已經(jīng)成為一個自成體系的應(yīng)用學(xué)科。,數(shù)據(jù)挖掘概述,22,什么是數(shù)據(jù)挖掘?,定義:從海量的數(shù)據(jù)庫中選擇、探索、識別出有效的、新穎的、具有潛在效用的乃至最終可理解的模式以獲取商業(yè)利益的非平凡的過程-Fayyad,Piatetsky Shapiror 1996特征:處理海量的數(shù)據(jù);揭示企業(yè)運作中的內(nèi)在規(guī)律;為企業(yè)運作提供直接決策分析,并為企業(yè)帶來巨大經(jīng)濟效益。,數(shù)據(jù)挖掘概述,23,商業(yè)智能

16、(BI)技術(shù),傳統(tǒng)的商業(yè)智能技術(shù)不能發(fā)現(xiàn)復(fù)雜的關(guān)系,也不能創(chuàng)建商業(yè)領(lǐng)域所需要的預(yù)測模型,,,Ad-hocSQL,EIS/DSS,統(tǒng)計,OLAP,數(shù)據(jù)挖掘,用戶直接發(fā)現(xiàn),自動發(fā)現(xiàn),查詢復(fù)雜性(e.g. 維度個數(shù)),數(shù)據(jù)挖掘概述,24,預(yù)測的基本原理,預(yù)測問題用于預(yù)測的歷史數(shù)據(jù)進行預(yù)測分析的工具和方法,數(shù)據(jù)挖掘概述,25,數(shù)據(jù)挖掘——學(xué)習(xí)知識的過程,歷史數(shù)據(jù),,學(xué)習(xí)過程(建模),,模型輸出,新數(shù)據(jù),模型輸出,結(jié)果,建模學(xué)習(xí)階段,應(yīng)

17、用實施階段,,數(shù)據(jù)挖掘概述,26,數(shù)據(jù)挖掘不是萬能的,數(shù)據(jù)挖掘通過構(gòu)建模型發(fā)現(xiàn)特征模式和關(guān)系. 模型,就象地圖, 是事實的抽象表示.?dāng)?shù)據(jù)挖掘只是一個工具, 不是一個萬能魔杖數(shù)據(jù)挖掘不能替代業(yè)務(wù)分析人員或者經(jīng)理們的角色, 但是數(shù)據(jù)挖掘能為他們提供更有力的新工具以改善他們的工作數(shù)據(jù)挖掘既是一門藝術(shù)又是一門科學(xué),數(shù)據(jù)挖掘概述,27,,數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ摂?shù)據(jù)挖掘項目實施流程專題1:業(yè)務(wù)目標(biāo)選定專題2:數(shù)據(jù)

18、挖掘項目評估方法專題3:數(shù)據(jù)挖掘項目管理專題4:數(shù)據(jù)挖掘項目實施中的重要規(guī)范,主題,28,我們的日常生活工作離不開分析: 數(shù)據(jù)挖掘與一般的分析活動的重要區(qū)別:,數(shù)據(jù)挖掘是在有方法論指導(dǎo)的項目實踐中積累和推廣的,數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ?做什么?怎么做?做!做完以后怎么樣?,29,,以SPSS,NCR等公司為代表的CRISP-DM方法論CRISP-DM是跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程(Cross-Industry Sta

19、ndard Process for Data Mining)的縮寫強調(diào)以業(yè)務(wù)理解(Business understanding)、數(shù)據(jù)理解(Data understanding)、數(shù)據(jù)準(zhǔn)備(Data preparation)、建模(Modeling)、評價(Evaluation)、發(fā)布(Deployment)為核心環(huán)節(jié),將數(shù)據(jù)挖掘目標(biāo)和商務(wù)目標(biāo)有機地聯(lián)系在一起,數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ?30,數(shù)據(jù)挖掘方法論 – CRISP-DM,,CRIS

20、P-DMwww.crisp-dm.org,31,數(shù)據(jù)挖掘方法論 – SEMMA,以SAS公司為代表的SEMMA方法論 SEMMA方法論以抽樣(Sample) 、探索(Explore) 、修改(Modify) 、建模(Model) 、評估(Assess) 為核心環(huán)節(jié),強調(diào)數(shù)據(jù)挖掘過程是這5個環(huán)節(jié)的有機循環(huán)抽樣(Sample)當(dāng)進行數(shù)據(jù)挖掘時,首先要從企業(yè)大量數(shù)據(jù)中取出一個與你要探索問題相關(guān)的樣板數(shù)據(jù)子集,而不是動用全部企業(yè)數(shù)

21、據(jù)。這就像在對開采出來礦石首先要進行選礦一樣。通過數(shù)據(jù)樣本的精選,不僅能減少數(shù)據(jù)處理量,節(jié)省系統(tǒng)資源,而且能通過數(shù)據(jù)的篩選,使你想要它反映的規(guī)律性更加凸現(xiàn)出來從巨大的企業(yè)數(shù)據(jù)母體中取出哪些數(shù)據(jù)作為樣本數(shù)據(jù)呢?這要依你所要達到的目標(biāo)來區(qū)分采用不同的辦法,32,數(shù)據(jù)挖掘方法論 – SEMMA,以SAS公司為代表的SEMMA方法論探索(Explore)前面所敘述的數(shù)據(jù)取樣,多少是帶著人們對如何達到數(shù)據(jù)挖掘目的的先驗的認(rèn)識進行操作的。當(dāng)我

22、們拿到了一個樣本數(shù)據(jù)集后,它是否達到我們原來設(shè)想的要求;其中有沒有什么明顯的規(guī)律和趨勢;有沒有出現(xiàn)你所從未設(shè)想過的數(shù)據(jù)狀態(tài);因素之間有什么相關(guān)性;它們可區(qū)分成怎樣一些類別……這都是要首先探索的內(nèi)容修改(Modify)通過上述兩個步驟的操作,你對數(shù)據(jù)的狀態(tài)和趨勢可能有了進一步的了解。對你原來要解決的問題可能會有了進一步的明確;這時要盡可能對問題解決的要求能進一步的量化。問題越明確,越能進一步量化,問題就向它的解決更前進了一步。這是十分

23、重要的。因為原來的問題很可能是諸如質(zhì)量不好、生產(chǎn)率低等模糊的問題,沒有問題的進一步明確,你簡直就無法進行有效的數(shù)據(jù)挖掘操作針對問題的需要可能要對數(shù)據(jù)進行增刪;也可能按照你對整個數(shù)據(jù)挖掘過程的新認(rèn)識,要組合或者生成一些新的變量,以體現(xiàn)對狀態(tài)的有效的描述,33,數(shù)據(jù)挖掘方法論 – SEMMA,以SAS公司為代表的SEMMA方法論建模(Model)這一步是數(shù)據(jù)挖掘工作的核心環(huán)節(jié)。按照SAS提出的SEMMA方法論走到這一步時,你對應(yīng)采用的

24、技術(shù)已有了較明確的方向;你的數(shù)據(jù)結(jié)構(gòu)和內(nèi)容也有了充分的適應(yīng)性。SAS在這時也向你提供了充分的可選擇的技術(shù)手段:回歸分析方法等廣泛的數(shù)理統(tǒng)計方法;關(guān)聯(lián)分析方法;分類及聚類分析方法;人工神經(jīng)元網(wǎng)絡(luò);決策樹……等。在你的數(shù)據(jù)挖掘中使用哪一種方法,用SAS軟件包中什么方法來實現(xiàn),這主要取決于你的數(shù)據(jù)集的特征和你要實現(xiàn)的目標(biāo)。實際上這種選擇也不一定是唯一的。好在SAS軟件運行效率十分高,你不妨多試幾種方法,從實踐中選出最適合于你的方法。評估(

25、Assess)從上述過程中將會得出一系列的分析結(jié)果、模式或模型。同一個數(shù)據(jù)源可以利用多種數(shù)據(jù)分析方法和模型進行分析,ASSESS 的目的之一就是從這些模型中自動找出一個最好的模型出來,另外就是要對模型進行針對業(yè)務(wù)的解釋和應(yīng)用。若能從模型中得出一個直接的結(jié)論當(dāng)然很好。但更多的時候會得出對目標(biāo)問題多側(cè)面的描述。這時就要能很好的綜合它們的影響規(guī)律性提供合理的決策支持信息。所謂合理,實際上往往是要你在所付出的代價和達到預(yù)期目標(biāo)的可靠性的平衡

26、上做出選擇。,34,,數(shù)據(jù)挖掘方法論 – SEMMA,,完整的SEMMA方法論與外圍環(huán)節(jié),,數(shù)據(jù)挖掘周期,核心,外圍,,,,,,,SAS公司的數(shù)據(jù)挖掘項目方法論:,35,實際上這兩種方法論本身并不矛盾,CRISP-DM強調(diào)高層的商務(wù)目的實現(xiàn)過程,SEMMA強調(diào)具體的數(shù)據(jù)挖掘技術(shù)實現(xiàn)過程,實際上,很多的項目中,是將二者有機地結(jié)合起來運用的方法論的實踐,需要人力資源、技術(shù)和經(jīng)驗三方面的配合,,數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ?36,,數(shù)據(jù)挖掘概述

27、數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ摂?shù)據(jù)挖掘項目實施流程專題1:業(yè)務(wù)目標(biāo)選定專題2:數(shù)據(jù)挖掘項目評估方法專題3:數(shù)據(jù)挖掘項目管理專題4:數(shù)據(jù)挖掘項目實施中的重要規(guī)范,主題,37,數(shù)據(jù)挖掘過程是多個步驟相互連接、反復(fù)交互的過程。具體包括:,定義問題,準(zhǔn)備數(shù)據(jù),建立模型,應(yīng)用模型,確定業(yè)務(wù)問題和目標(biāo)將問題和目標(biāo)轉(zhuǎn)換為合適的分析方法,確定建模數(shù)據(jù)結(jié)構(gòu)和原始數(shù)據(jù)的需求獲取原始數(shù)據(jù)對原始數(shù)據(jù)進行預(yù)處理,生成建模數(shù)據(jù),訓(xùn)練和調(diào)整模型評

28、估模型并選擇最佳模型解釋模型,應(yīng)用模型或發(fā)現(xiàn)的模式和知識監(jiān)控和評價模型的應(yīng)用效果,數(shù)據(jù)挖掘項目實施流程,38,數(shù)據(jù)挖掘所需知識和技能,某個領(lǐng)域的業(yè)務(wù)知識(業(yè)務(wù)專家)——理解業(yè)務(wù)問題的細(xì)節(jié)和特殊性,背景業(yè)務(wù)知識,內(nèi)容含義,術(shù)語,知道對該業(yè)務(wù)問題的當(dāng)前處理方法和優(yōu)劣。 數(shù)據(jù)知識和處理能力(數(shù)據(jù)專家) ——理解數(shù)據(jù)的結(jié)構(gòu),格式,數(shù)據(jù)源的狀況,數(shù)據(jù)量的大小,有對數(shù)據(jù)操作的能力。 分析方法和技能(分析專家)——理解和該業(yè)務(wù)

29、問題相關(guān)的分析方法的特點和局限,有使用相關(guān)算法進行數(shù)據(jù)分析和建模的能力。,這三種知識和技能根據(jù)實際情況可能會體現(xiàn)在1個人,2個人或3個人身上。,數(shù)據(jù)挖掘項目實施流程,39,最關(guān)鍵的是理解業(yè)務(wù)和技術(shù)的綜合能力,,具有分析架構(gòu)設(shè)計能力的分析專家,是建立數(shù)據(jù)和業(yè)務(wù)之間的橋梁!,數(shù)據(jù)挖掘項目實施流程,40,確定業(yè)務(wù)問題和目標(biāo),為什么重要?常見的誤區(qū):很多人以為不需要事先確定問題和目標(biāo),只要對數(shù)據(jù)使用數(shù)據(jù)挖掘技術(shù),然后再對分析挖掘后的結(jié)果進行尋

30、找和解釋,自然會找到一些以前我們不知道的,有用的規(guī)律和知識,這就是所謂的數(shù)據(jù)挖掘能夠發(fā)掘隱藏在數(shù)據(jù)背后的金塊的神奇魔力。,“人們確實需要知道他們在尋找什么,并且知道一旦找到了所要找的東西,要做些什么?!? Beck 1997,數(shù)據(jù)挖掘項目實施流程,41,確定業(yè)務(wù)問題和目標(biāo),如何做好?先請看幾個例子:,了解我們的客戶挽留更多的客戶,對數(shù)據(jù)庫進行聚類使用神經(jīng)元網(wǎng)絡(luò),對客戶進行細(xì)分,了解不同客戶群的特征和需求,以便有針對性的營銷。

31、預(yù)測客戶的流失傾向和特征,以便提前主動進行有針對性的挽留。,定義太寬泛而不明確,另一個極端:過于技術(shù)化,關(guān)鍵:業(yè)務(wù)語言和技術(shù)語言的良好溝通,確定以提升業(yè)務(wù)價值為核心,與分析相關(guān)的可操作性強的明確目標(biāo)。不要忽視業(yè)務(wù)人員和分析人員任何一方的參與。,數(shù)據(jù)挖掘項目實施流程,42,將問題和目標(biāo)轉(zhuǎn)換為合適的分析方法,預(yù)測聚類關(guān)聯(lián)其他,不同的分析方法是針對不同的特定問題的,不同的分析方法對數(shù)據(jù)的要求也不同。,數(shù)據(jù)挖掘項目實施流程,43,流失預(yù)測

32、案例——定義問題,分析的方法,客戶流失率高,每年30%客戶流失 每年流失損失2億 無法預(yù)知客戶流失傾向 無法主動有效的挽留客戶,預(yù)測客戶的流失傾向識別高流失傾向客戶的特征以便提前主動進行有針對性的挽留從而降低流失率,減少流失損失,用預(yù)測模型預(yù)測客戶流失的可能性 用預(yù)測模型得到影響流失的重要因素 用統(tǒng)計方法和描述變量得到高流失概率客戶的其他特征 輸出高流失概率客戶列表和特征描述,分析的目的,業(yè)務(wù)問題起源,示例,數(shù)據(jù)挖

33、掘項目實施流程,44,確定建模數(shù)據(jù)結(jié)構(gòu)和原始數(shù)據(jù)的需求,數(shù)據(jù)中必須包含你想分析的內(nèi)容數(shù)據(jù)的定義要符合業(yè)務(wù)規(guī)則利用業(yè)務(wù)知識建立新的變量使用最新的數(shù)據(jù)數(shù)據(jù)的可獲取性,數(shù)據(jù)挖掘項目實施流程,45,獲取原始數(shù)據(jù),ETL系統(tǒng)架構(gòu)和流程—— 考慮效率和對源系統(tǒng)的影響數(shù)據(jù)的完整性和一致性——對原始數(shù)據(jù)的真實體現(xiàn)數(shù)據(jù)的檢查和清理——數(shù)據(jù)質(zhì)量的保證,數(shù)據(jù)挖掘項目實施流程,46,數(shù)據(jù)預(yù)處理,數(shù)據(jù)匯總數(shù)據(jù)轉(zhuǎn)置計算生成衍生

34、變量或指標(biāo)其他變換,目的: 形成符合建模需要的格式的數(shù)據(jù)表,數(shù)據(jù)挖掘項目實施流程,47,流失預(yù)測案例——準(zhǔn)備數(shù)據(jù),流失定義:流失——拆機/報拆/雙停30天;未流失——活動客戶排除客戶:在網(wǎng)時長少于一年,在簽約期間的客戶用戶的欠費次數(shù) –月份1到月份6每個種類的總呼叫次數(shù) – 月份1到月份6平均呼叫持續(xù)時間,對應(yīng)各個呼叫種類(國際,本地,長途等) -- 月份1到月份6在網(wǎng)時間平均呼叫次數(shù),對應(yīng)各個呼叫種類(國際,本地,長途等

35、) -- 月份1到月份6……,示例,數(shù)據(jù)挖掘項目實施流程,48,流失預(yù)測案例——準(zhǔn)備數(shù)據(jù),示例,數(shù)據(jù)挖掘項目實施流程,49,訓(xùn)練和調(diào)整模型,合理的數(shù)據(jù)采樣: 使數(shù)據(jù)有代表性,分層采樣,順序采樣,處理小概率事件數(shù)據(jù)分隔: 分為訓(xùn)練,確認(rèn),測試三個數(shù)據(jù)集,避免過擬合,確保模型的穩(wěn)定數(shù)據(jù)探索: 了解數(shù)據(jù)分布模式,發(fā)現(xiàn)數(shù)據(jù)異常必要的數(shù)據(jù)變換: 處理缺失值,異常值,改變數(shù)據(jù)分布形態(tài),數(shù)據(jù)分段,減少有效變量數(shù)量模型參數(shù)的調(diào)整和優(yōu)化,,,數(shù)

36、據(jù)挖掘項目實施流程,50,評估和選擇最佳模型,評價模型的穩(wěn)定性和準(zhǔn)確性:模型在確認(rèn)數(shù)據(jù)上的表現(xiàn)如何,是否穩(wěn)定?模型準(zhǔn)確度如何,和無模型相比有多少提升?哪一個模型最好?很多評估方法或圖形可以提供幫助:十分位數(shù)分析Lift Charts(又叫 gains chart)利潤/損失圖(Profit/Loss Charts) 投資效益比圖(ROI) 診斷分類圖ROC Charts 各種基于臨界值的圖形(Threshold-b

37、ased Charts),,,,數(shù)據(jù)挖掘項目實施流程,51,解釋模型,對模型的結(jié)果進行分析采用輔助手段是規(guī)律更加凸顯和易懂,如統(tǒng)計,數(shù)據(jù)可視化,報表甚至外部調(diào)查用業(yè)務(wù)語言描述發(fā)現(xiàn)的規(guī)律或模式根據(jù)這些規(guī)律,提出業(yè)務(wù)上的解釋和建議,需要業(yè)務(wù)知識和對數(shù)據(jù)的分析的緊密結(jié)合,集中體現(xiàn)業(yè)務(wù)領(lǐng)悟力和創(chuàng)造性,這是最激動人心的時刻,發(fā)現(xiàn)了知識!同時也是需要你有耐心的時候。,數(shù)據(jù)挖掘項目實施流程,52,流失預(yù)測案例——建立模型,過采樣,處理小概率事件

38、調(diào)整模型參數(shù),示例,數(shù)據(jù)挖掘項目實施流程,53,流失預(yù)測案例——建立模型,模型結(jié)果解釋模型評估,,},前30%預(yù)測流失客戶中就捕捉到58%的實際流失客戶,示例,數(shù)據(jù)挖掘項目實施流程,隨著模型判斷流失可能性的下降,實際流失客戶減少,54,應(yīng)用模型和知識,按照用途,模型可以用來做:—— 評分,如客戶流失計分,客戶價值計分?!?設(shè)計策略,如不同客戶群的營銷策略。按照實施方式,模型可以:—— 集成在現(xiàn)有的業(yè)務(wù)系統(tǒng)中,實

39、時評分?!?應(yīng)用于決策支持系統(tǒng)中,提供決策支持信息?!?集成于在線客戶服務(wù)系統(tǒng),提供有意義的客戶信息。—— 輸出客戶列表,為其他系統(tǒng)或應(yīng)用提供數(shù)據(jù)。是否能自動應(yīng)用和如何使用,取決于實際IT系統(tǒng)環(huán)境和業(yè)務(wù)流程。,數(shù)據(jù)挖掘項目實施流程,55,監(jiān)控和評價模型應(yīng)用效果,隨著時間的推移,市場、客戶、數(shù)據(jù)的變化,模型的效力必然衰減,并最終失效。最直觀的監(jiān)控方法就是看看模型應(yīng)用到現(xiàn)實中的效果好壞,可以通過和控制組的比較評價效

40、果。最終效果與模型,策略的設(shè)計,活動的執(zhí)行,其他因素都有關(guān)系,因此要對每個環(huán)節(jié)分析。如果對模型準(zhǔn)確性和穩(wěn)定性評估證明模型的表現(xiàn)已經(jīng)不可接受,就需要再訓(xùn)練模型。,數(shù)據(jù)挖掘項目實施流程,56,流失預(yù)測案例——應(yīng)用模型,流失概率高的客戶列表,示例,數(shù)據(jù)挖掘項目實施流程,57,小結(jié),數(shù)據(jù)挖掘是一個反復(fù)的過程,不是一次性的,一勞永逸的工作。需要業(yè)務(wù)專家,數(shù)據(jù)專家,分析專家在多個環(huán)節(jié)上的緊密合作。數(shù)據(jù)挖掘的價值必須通過可執(zhí)行的策略和活動作用

41、于業(yè)務(wù)上才能體現(xiàn)。關(guān)鍵是掌握從數(shù)據(jù)->知識->行動->業(yè)務(wù)增值的方法論,建立一個良好的數(shù)據(jù)挖掘平臺和流程,從而具有按照實際業(yè)務(wù)的需要和環(huán)境的改變,再訓(xùn)練模型,優(yōu)化模型,開發(fā)新的模型的能力。,數(shù)據(jù)挖掘項目實施流程,58,,數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ摂?shù)據(jù)挖掘項目實施流程專題1:業(yè)務(wù)目標(biāo)選定專題2:數(shù)據(jù)挖掘項目評估方法專題3:數(shù)據(jù)挖掘項目管理專題4:數(shù)據(jù)挖掘項目實施中的重要規(guī)范,主題,59,描述

42、性模型和預(yù)測性模型的目標(biāo)設(shè)計差異風(fēng)險類模型的目標(biāo)設(shè)計營銷類模型的目標(biāo)設(shè)計,業(yè)務(wù)目標(biāo)選定,60,定義目標(biāo),模型種類,模型類型,選擇算法,,,,,,,數(shù)據(jù)挖掘的最終目標(biāo)是什么?例如:希望用數(shù)據(jù)挖掘技術(shù)留住有價值的客戶,則需要建立模型來:一、區(qū)別那些客戶是有價值的客戶;二、那些客戶有可能離開。,確定合適的模型種類:1、分類。描述一特定用戶或事件屬于哪一類;2、回歸。預(yù)測一個變量的值。例如可以用分類確定用戶的價值,用預(yù)測來確定那些用戶有

43、可能會離開。,選擇模型的類型,例如用聚類來做分類,神經(jīng)網(wǎng)絡(luò)、決策樹來做預(yù)測,還是用統(tǒng)計模型,如:邏輯回歸,普通線性模型等。,每種模型都可能用不同的算法來實現(xiàn),比如可以用回饋函數(shù)或radial basis函數(shù)來建立神經(jīng)網(wǎng)絡(luò);決策樹還有CART、C5.0、QUEST、CHAID等。,描述性模型和預(yù)測性模型的目標(biāo)設(shè)計差異,61,數(shù)據(jù)挖掘是從企業(yè)數(shù)據(jù)財富中導(dǎo)出客戶洞察的方法. 客戶洞察通常以描述性或預(yù)測模型的形式得到.,允許描述數(shù)據(jù)集發(fā)現(xiàn)數(shù)

44、據(jù)中過去不知道的模式和趨勢不被目標(biāo)變量所“指導(dǎo)”舉例: 分群, 關(guān)聯(lián)分析,允許預(yù)測和解釋變量用于開發(fā)預(yù)測模型,該模型的建模過程受目標(biāo)變量的“指導(dǎo)”舉例: 提升/交叉銷售模型, 獲取模型, 流失模型,描述性/無監(jiān)督模型,預(yù)測/有指導(dǎo)模型,數(shù)據(jù)挖掘,描述性模型和預(yù)測性模型的目標(biāo)設(shè)計差異,62,① 預(yù)測 用過去的數(shù)據(jù)預(yù)測 未來發(fā)生什么,預(yù)測未來發(fā)生的可能性,歷史數(shù)據(jù),預(yù)測模型 - 神經(jīng)

45、元網(wǎng)絡(luò) - 決策樹 - 回歸,② 描述 用過去的數(shù)據(jù) 描述 現(xiàn)在發(fā)生了什么,描述現(xiàn)在已經(jīng)發(fā)生的規(guī)律,歷史數(shù)據(jù),描述模型 - 聚類 - 關(guān)聯(lián),描述性模型和預(yù)測性模型的目標(biāo)設(shè)計差異,63,風(fēng)險類模型的目標(biāo)設(shè)計業(yè)務(wù)目的是預(yù)警和防范風(fēng)險,在業(yè)務(wù)管理上像“踩剎車”風(fēng)險的種類流失風(fēng)險信用風(fēng)險欺詐風(fēng)險… …模型的目標(biāo)是預(yù)測 Good / Bad數(shù)據(jù)準(zhǔn)備要包括已經(jīng)發(fā)生了風(fēng)險的B

46、ad情形和在一定期間內(nèi)沒有發(fā)生風(fēng)險的Good情形,業(yè)務(wù)目標(biāo)選定,64,風(fēng)險類模型的目標(biāo)設(shè)計模型收益通過對客戶風(fēng)險的預(yù)先量化判別,主動采取措施規(guī)避風(fēng)險,控制風(fēng)險損失通過模型預(yù)測的精確性與量化特征,可以有意識地引入可以容忍的風(fēng)險,合理降低風(fēng)險控制門檻,從而擴大業(yè)務(wù)發(fā)放規(guī)模模型的應(yīng)用模式利用模型對每個客戶預(yù)測的風(fēng)險概率,對低風(fēng)險客戶實施綠色通道處理,或增加信用額度,促進其收益增長利用模型對每個客戶預(yù)測的風(fēng)險概率,對高風(fēng)險客戶實施紅

47、色預(yù)警處理,或降低信用額度,降低其風(fēng)險損失利用模型預(yù)測的風(fēng)險級別,減少人工風(fēng)控的工作量,將人工經(jīng)驗用在模型情形處理的“刀刃”上,提高風(fēng)控管理的效率可以量化地控管客戶風(fēng)險與規(guī)模、收益增長的關(guān)系,輔助精細(xì)化管理可以利用客戶風(fēng)險評分,監(jiān)控和評價客戶經(jīng)理的工作成效,業(yè)務(wù)目標(biāo)選定,65,風(fēng)險類模型的目標(biāo)設(shè)計可行性積累和整理足夠數(shù)量和足夠長度的風(fēng)險相關(guān)歷史數(shù)據(jù),包括是否發(fā)生風(fēng)險的情形,與判斷風(fēng)險相關(guān)的特征(如申請表或交易行為等)利用數(shù)據(jù)

48、建立預(yù)測模型,為每個客戶建立風(fēng)險評分針對風(fēng)險評分的高低,采取不同的風(fēng)險控制策略根據(jù)風(fēng)險評分的分布,確定風(fēng)險控制的門限(例如,對于信用卡申請的批準(zhǔn)率設(shè)置),業(yè)務(wù)目標(biāo)選定,66,風(fēng)險類模型的目標(biāo)設(shè)計目標(biāo)的定義風(fēng)險模型的目標(biāo)定義一般比業(yè)務(wù)上的風(fēng)險定義要嚴(yán)格例如:信用風(fēng)險的目標(biāo)定義往往是拖欠達到90天及以上,而實際的業(yè)務(wù)壞賬標(biāo)準(zhǔn)是拖欠達到180天及以上因為更嚴(yán)格的目標(biāo)定義可以為業(yè)務(wù)操作上留取一定的調(diào)整空間;同時,按照實際的業(yè)務(wù)壞賬標(biāo)

49、準(zhǔn)定義的情形往往在預(yù)測期就已經(jīng)不可逆轉(zhuǎn),很難根據(jù)預(yù)測結(jié)果采取有效防范措施;另外,較嚴(yán)格的定義可以獲得更多的Bad樣本,技術(shù)上有利于建立預(yù)測模型模型上的風(fēng)險定義也需要取得業(yè)務(wù)人員的認(rèn)可,因為實際風(fēng)險管理中也經(jīng)常將風(fēng)險定義收嚴(yán),所以具備達成一致的條件當(dāng)然,模型風(fēng)險定義的情形要被證明有足夠高的概率將轉(zhuǎn)換成業(yè)務(wù)上定義的壞賬(可以采用roll-rate分析),業(yè)務(wù)目標(biāo)選定,67,風(fēng)險類模型的目標(biāo)設(shè)計目標(biāo)的定義是預(yù)測1個月出現(xiàn)零次話的用戶,

50、還是預(yù)測連續(xù)2個月或3個月出現(xiàn)零次話的用戶?通過roll-rate分析,可以幫助我們進行預(yù)測目標(biāo)的確定,,,,,,1個月零次話的用戶,在下一個月繼續(xù)為零次戶的可能性為75%,有24%的用戶下個月會自然回復(fù)正常,連續(xù)兩個月零次話的用戶,成為3個月零次戶的可能性為86 %,自然回復(fù)正常的可能性為14%,從零次戶的自然回復(fù)正常比率和減少偶然性影響來看,最終決定以預(yù)測連續(xù)兩個月的零次戶為預(yù)測目標(biāo),業(yè)務(wù)目標(biāo)選定,示例,68,風(fēng)險類模型的目標(biāo)設(shè)計

51、避免“偽預(yù)測”風(fēng)險現(xiàn)象在發(fā)生之前可能已經(jīng)產(chǎn)生輕度風(fēng)險現(xiàn)象,如果將此類現(xiàn)象當(dāng)作預(yù)測因子,將產(chǎn)生“偽預(yù)測”例如,已經(jīng)發(fā)生“預(yù)約停機”情形的客戶發(fā)生離網(wǎng)流失的概率很高,但是,在業(yè)務(wù)上,如果這類客戶屬于值得挽留的客戶,已經(jīng)有對應(yīng)的流程去處理,對這個顯而易見的規(guī)律,預(yù)測失去了意義,無法體現(xiàn)對業(yè)務(wù)環(huán)節(jié)的提升;對業(yè)務(wù)人員來說,從表面上一直正常的客戶中發(fā)現(xiàn)突變的流失風(fēng)險,才能真正提高維系和挽留工作的效率。但是,由于使用這類顯而易見的因素作

52、為預(yù)測因子,在模型技術(shù)評估上可以獲得很高的預(yù)測性能指標(biāo),如果沒有完備綜合的評估體系,將會干擾對模型有效性的確切評估。,業(yè)務(wù)目標(biāo)選定,69,市場類模型的目標(biāo)設(shè)計業(yè)務(wù)目的是提升市場營銷能力,在業(yè)務(wù)管理上像“踩油門”市場模型的種類交叉銷售營銷響應(yīng)… …模型的目標(biāo)是預(yù)測客戶接受營銷的產(chǎn)品組合的機會數(shù)據(jù)準(zhǔn)備應(yīng)該包括已經(jīng)接受了營銷推薦的情形和沒有接受營銷推薦的情形,業(yè)務(wù)目標(biāo)選定,70,市場類模型的目標(biāo)設(shè)計(以交叉銷

53、售為例)模型收益促進重點產(chǎn)品的發(fā)行增加客戶持有產(chǎn)品的數(shù)目增加持有多種產(chǎn)品的客戶規(guī)模模型的應(yīng)用模式以各個獨立產(chǎn)品之間的相關(guān)性輔助產(chǎn)品組合設(shè)計找到最強關(guān)聯(lián)的產(chǎn)品組合的購買順序,設(shè)計交叉銷售方案列示出每個客戶最適合購買的下一個或者下三個產(chǎn)品,進行全接觸點的統(tǒng)一營銷可行性通過客戶分群總結(jié)客戶全方位特征(數(shù)據(jù)挖掘+人工討論結(jié)果)通過客戶特征推斷客戶需求(人工討論為主)根據(jù)客戶需求選擇或設(shè)計產(chǎn)品(人工設(shè)計為主)根據(jù)現(xiàn)有

54、產(chǎn)品的相關(guān)性設(shè)計產(chǎn)品組合(數(shù)據(jù)挖掘+人工討論結(jié)果)建立客戶需求與產(chǎn)品組合的匹配(人工設(shè)計為主)在技術(shù)上和業(yè)務(wù)管理上應(yīng)用交叉銷售模型的結(jié)果,業(yè)務(wù)目標(biāo)選定,71,市場類模型的目標(biāo)設(shè)計(以交叉銷售為例)目標(biāo)的定義 可以使用描述性模型方案,則本身沒有直接的預(yù)測目標(biāo)變量,而是利用產(chǎn)品購買清單,發(fā)現(xiàn)產(chǎn)品間的潛在關(guān)聯(lián)關(guān)系 可以使用預(yù)測性模型方案,即以每個產(chǎn)品的持有為一個目標(biāo)事件,利用人工神經(jīng)元網(wǎng)絡(luò)等模型進行多目標(biāo)的預(yù)測 在交叉銷售目標(biāo)定義

55、中必須注意排除業(yè)務(wù)上固有的產(chǎn)品綁定和排斥規(guī)則,例如:語音通話和來電顯示自身就有很強的綁定性,而低價位普通手機和智能手機之間又具有互斥性避免“偽相關(guān)”分析中可能發(fā)現(xiàn)的強相關(guān)組合,可能因為業(yè)務(wù)本上就是捆綁銷售的產(chǎn)品組合,幾乎沒有分離銷售過,這將導(dǎo)致“偽相關(guān)”的分析結(jié)果因為以前的綁定很可能是拍腦袋的結(jié)果,如果數(shù)據(jù)挖掘不排除這些情形,就會干擾發(fā)現(xiàn)真正具有自然相關(guān)性的產(chǎn)品組合的過程,業(yè)務(wù)目標(biāo)選定,72,市場類模型的目標(biāo)設(shè)計(以營銷響應(yīng)為例)

56、模型收益在投放成本不變的情況下,取得最大化的營銷響應(yīng)率模型的應(yīng)用模式根據(jù)營銷響應(yīng)率預(yù)測的高低,針對性地選取投放對象,提升營銷活動的成本收益率根據(jù)營銷響應(yīng)率預(yù)測的高低,進行營銷活動的預(yù)演,在策劃階段就提高活動的針對性利用不同產(chǎn)品營銷響應(yīng)率的分布,進行優(yōu)化的客戶-產(chǎn)品匹配設(shè)計,業(yè)務(wù)目標(biāo)選定,73,市場類模型的目標(biāo)設(shè)計(以營銷響應(yīng)為例)可行性根據(jù)已經(jīng)發(fā)生過的營銷活動的結(jié)果,準(zhǔn)備有/無響應(yīng)的客戶群體數(shù)據(jù)通過客戶分群總結(jié)客戶全方

57、位特征(數(shù)據(jù)挖掘+人工討論結(jié)果)總結(jié)營銷活動的特征(人工分類)通過客戶特征、營銷活動特征與營銷響應(yīng)結(jié)果建立營銷響應(yīng)結(jié)果預(yù)測模型(數(shù)據(jù)挖掘)通過預(yù)測模型為建立基于響應(yīng)概率的客戶列表(數(shù)據(jù)挖掘)根據(jù)模型結(jié)果優(yōu)化營銷投放目標(biāo)客戶群(數(shù)據(jù)挖掘+人工篩選),業(yè)務(wù)目標(biāo)選定,74,市場類模型的目標(biāo)設(shè)計(以營銷響應(yīng)為例)目標(biāo)的定義營銷響應(yīng)事件(有/無)需要規(guī)定響應(yīng)的程度(接到推薦/完整地接聽推薦/對推薦產(chǎn)程回饋(如回復(fù)短信)/表示對推薦的

58、正面評價/購買推薦的產(chǎn)品組合),最終購買作為目標(biāo)可以直接關(guān)聯(lián)業(yè)務(wù)收益目標(biāo),但是存在跟蹤難度,因為很多客戶并不是當(dāng)場購買,而是事后從別的渠道購買通常,以對推薦產(chǎn)程回饋(如回復(fù)短信)為目標(biāo)響應(yīng)事件,因為接近最終正面結(jié)果,同時可操作性強注意選取一定的考察期,對于營銷活動很長時間后才響應(yīng)的客戶,視為不響應(yīng),業(yè)務(wù)目標(biāo)選定,75,,數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ摂?shù)據(jù)挖掘項目實施流程專題1:業(yè)務(wù)目標(biāo)選定專題2:數(shù)據(jù)挖掘項目評估方

59、法專題3:數(shù)據(jù)挖掘項目管理專題4:數(shù)據(jù)挖掘項目實施中的重要規(guī)范,主題,76,數(shù)據(jù)挖掘項目有沒有效果,數(shù)據(jù)挖掘項目評估方法,?,技術(shù)指標(biāo)優(yōu)秀的模型好像幫不到業(yè)務(wù)指標(biāo)的提升,為什么看到別人的案例收效很大,但是自己做的項目卻沒有類似的收效,花了這么多功夫,如果做出來的模型響應(yīng)率達不到90%是不是還很失敗,數(shù)據(jù)挖掘項目該如何評估,77,兼顧業(yè)務(wù)和技術(shù):從模型的技術(shù)指標(biāo)和對業(yè)務(wù)的提升作用兩方面來評估,并注重其中的關(guān)聯(lián)性兼顧結(jié)果和過程

60、既要考察模型最終結(jié)果在業(yè)務(wù)和技術(shù)上的收效,也要看到模型開發(fā)過程中發(fā)現(xiàn)的問題和改善的環(huán)節(jié)兼顧絕對提升和相對提升既要考察項目后技術(shù)指標(biāo)和業(yè)務(wù)指標(biāo)的絕對值水準(zhǔn),也要考察指標(biāo)相對于以前的相對提升考慮業(yè)界普遍規(guī)律以業(yè)界的普遍水準(zhǔn)為參考,考察項目取得的收益。例如,直郵營銷的普遍回復(fù)率不到1%,如果項目能夠提升到8%-10%,已經(jīng)是相當(dāng)突出的效果了。,數(shù)據(jù)挖掘項目評估方法,建立數(shù)據(jù)挖掘項目評估體系的要點,78,數(shù)據(jù)挖掘項目評估方法,數(shù)

61、據(jù)挖掘項目評估體系,業(yè)務(wù)評估,技術(shù)評估,宏觀市場指標(biāo)評估 占有率 客戶構(gòu)成 客戶貢獻度 成本/收益率 規(guī)模/增長速度微觀市場指標(biāo)評估 客戶細(xì)分群構(gòu)成 細(xì)分客戶貢獻度 細(xì)分風(fēng)險損失 細(xì)分客戶親和力 細(xì)分客戶接觸效果評估特定業(yè)務(wù)活動(如營銷)的收效評估,模型適用范圍評估模型技術(shù)性能評估模型/非模

62、型提升率對比模型合理性評估模型魯棒性評估模型開發(fā)成本模型實施和維護成本,項目投入成本評估 業(yè)務(wù)實施投入 技術(shù)實施投入 時間成本 機會成本項目過程收效評估 模型對工作效率的提升 模型建立過程中梳理業(yè)務(wù)問題和數(shù)據(jù)問題的潛在貢獻,79,業(yè)務(wù)評估:從模型對業(yè)務(wù)和管理的實際提升效果來評估數(shù)據(jù)挖掘項目技術(shù)評估從結(jié)果的性能、穩(wěn)定性和合理性等方面來評

63、估數(shù)據(jù)挖掘項目,數(shù)據(jù)挖掘項目評估方法,80,技術(shù)評估模型適用范圍評估模型建立時使用的數(shù)據(jù)與最終投入應(yīng)用時不同,例如建模數(shù)據(jù)可能是一年前的業(yè)務(wù)環(huán)境下,或者只是幾個中心城市的數(shù)據(jù);在投入使用時,需要將模型結(jié)果在最終投入應(yīng)用的數(shù)據(jù)上進行驗證,考察模型的性能在不同范圍的分布情形;最終的結(jié)論包括模型在不同地域、時間段范圍上的適用程度列表,進而導(dǎo)出模型的適用范圍,數(shù)據(jù)挖掘項目評估方法,81,技術(shù)評估模型技術(shù)性能評估主要包括通常的顯著性檢

64、驗,包括(但不限于)衡量模型對于目標(biāo)和非目標(biāo)區(qū)分度的KS值,Gini系數(shù)衡量預(yù)測模型效果的十分位分?jǐn)?shù)段分布檢驗衡量不同模型針對于不建模型的隨機序列的提升程度的Lift Charts(也叫Gain Charts)衡量預(yù)測模型命中效果的查全率、查準(zhǔn)率衡量預(yù)測模型預(yù)測性能的預(yù)測-實際結(jié)果的誤差矩陣衡量描述性模型的特征顯著性的指標(biāo)(例如分群特征相對于整體特征的差異比率)衡量預(yù)測模型收益損失的綜合圖表

65、利潤/損失圖(Profit/Loss Charts) 投資效益比圖(ROI) 診斷分類圖ROC Charts 各種基于臨界值的圖形(Threshold-based Charts),數(shù)據(jù)挖掘項目評估方法,82,技術(shù)評估模型/非模型提升率對比以Lift Charts(也叫Gain Charts)為基礎(chǔ),設(shè)置相應(yīng)的控制組(control group)來對比使用模型后的效果與不使用模型的效果;,數(shù)據(jù)挖掘

66、項目評估方法,83,技術(shù)評估模型合理性評估判斷模型的結(jié)果是否合理,模型使用的分析變量是否合理,是否可以被業(yè)務(wù)上理解并應(yīng)用。在一個實例中,價值模型評分后,大量VIP群體分?jǐn)?shù)較低,這個結(jié)論是不合理的,因此在合理性評估上被質(zhì)疑,經(jīng)調(diào)查,是因為大量VIP群體由于有專門的客戶經(jīng)理專門應(yīng)對,結(jié)果在系統(tǒng)移植時,沒有將必要的客戶資料重新錄入到新系統(tǒng)中,造成VIP群體在數(shù)據(jù)上大量缺失,影響了建模結(jié)論。此時的合理性評估,起到了為業(yè)務(wù)應(yīng)用把關(guān)的作用

67、。,數(shù)據(jù)挖掘項目評估方法,84,技術(shù)評估模型魯棒性(Robustness)評估即檢驗?zāi)P驮跁r間推移、人群構(gòu)成變化等條件下性能的穩(wěn)定性。常用的模型魯棒性檢驗方法包括:1、使用同時間段不同的樣本來檢驗,例如將數(shù)據(jù)劃分為訓(xùn)練、校驗和測試數(shù)據(jù),使用部分參與建模的校驗數(shù)據(jù)和完全沒有參與建模的測試數(shù)據(jù)進行檢驗2、使用不同時間段的數(shù)據(jù)樣本進行檢驗,例如3個月,6個月以后的數(shù)據(jù)進行檢驗其中方法1常在在建模時采用,用于模型微調(diào);

68、方法2常在模型建立后一段監(jiān)控期內(nèi)采用,用于模型的跟蹤和調(diào)整;在實際應(yīng)用中,更注重方法2的使用。,數(shù)據(jù)挖掘項目評估方法,85,技術(shù)評估開發(fā)過程成本評估模型開發(fā)成本模型實施和維護成本,數(shù)據(jù)挖掘項目評估方法,86,業(yè)務(wù)評估宏觀市場指標(biāo)評估 占有率 客戶構(gòu)成優(yōu)質(zhì)、中層、靜默等客戶的占比 客戶貢獻度包括了客戶收益和客戶風(fēng)險、以及其它成本因素 成本/

69、收益率 規(guī)模/增長速度,數(shù)據(jù)挖掘項目評估方法,87,業(yè)務(wù)評估微觀市場指標(biāo)評估 客戶細(xì)分群構(gòu)成細(xì)分群體中優(yōu)質(zhì)、中層、靜默等客戶的占比 細(xì)分客戶貢獻度包括了細(xì)分群體的客戶收益和客戶風(fēng)險、以及其它成本因素細(xì)分風(fēng)險損失細(xì)分客戶群的信用、流失、欺詐等風(fēng)險損失 細(xì)分客戶親和力細(xì)分客戶群對于呼叫中心呼入的傾向,接受外呼的程度,響應(yīng)客戶經(jīng)理或柜面預(yù)約訪談的程度

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論