2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩122頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘項(xiàng)目實(shí)施中的關(guān)鍵環(huán)節(jié),深圳華策輝弘科技有限公司專(zhuān)業(yè)服務(wù)部2007 – 12 -13,2,公司介紹,華策輝弘科技有限公司致力于商業(yè)數(shù)據(jù)分析的咨詢(xún)服務(wù),由具備豐富的國(guó)際、國(guó)內(nèi)項(xiàng)目經(jīng)驗(yàn)的國(guó)內(nèi)外資深專(zhuān)家創(chuàng)辦。公司有一支業(yè)界不多見(jiàn)的高水準(zhǔn)咨詢(xún)服務(wù)專(zhuān)業(yè)團(tuán)隊(duì),項(xiàng)目的經(jīng)驗(yàn)覆蓋亞洲太平洋地區(qū)包括中國(guó)、澳洲、香港、泰國(guó)、馬來(lái)西亞等地的金融業(yè)、電訊業(yè)以及零售業(yè),為這些不同國(guó)家和不同行業(yè)的客戶(hù)提供商業(yè)信息及分析性解決方案。,3,公司介紹,華策輝弘

2、科技有限公司歷史1997 – 2002, 共同創(chuàng)始人 Eric 工作于SAS中國(guó),Dick工作于SAS香港 2002 – 2004, 獨(dú)立進(jìn)行咨詢(xún)顧問(wèn)工作2004 – 2006, Eric在北京創(chuàng)建了華策未來(lái), Dick在香港創(chuàng)建了萬(wàn)訊奧義2006 – 至今, 在深圳合并,成立了華策輝弘業(yè)務(wù)范圍關(guān)于決策支持系統(tǒng)/客戶(hù)關(guān)系管理/數(shù)據(jù)挖掘/信用評(píng)分/分析的咨詢(xún)項(xiàng)目,其主要客戶(hù)是金融業(yè)和通訊行業(yè)

3、 基于SAS工具的數(shù)據(jù)處理和分析的開(kāi)發(fā)服務(wù) 提供針對(duì)SAS 編程人員/分析師/設(shè)計(jì)師的培訓(xùn),4,團(tuán)隊(duì)成員,核心團(tuán)隊(duì)成員大都擁有超過(guò)八年以上有關(guān)各項(xiàng)服務(wù)的經(jīng)驗(yàn)﹐同時(shí)具備應(yīng)用SAS軟件八年以上的經(jīng)驗(yàn)﹐在銀行業(yè)、電訊業(yè)與保險(xiǎn)業(yè)也有豐富的行業(yè)經(jīng)驗(yàn), 所擔(dān)任的角色分別從市場(chǎng)分析及報(bào)告到風(fēng)險(xiǎn)評(píng)估及管理。團(tuán)隊(duì)成員曾經(jīng)奪得第二屆國(guó)際智能數(shù)據(jù)分析比賽冠軍。專(zhuān)家團(tuán)隊(duì)中有來(lái)自英國(guó)皇家統(tǒng)計(jì)學(xué)會(huì)的注冊(cè)統(tǒng)計(jì)師。,5,團(tuán)隊(duì)成員在亞太地

4、區(qū)及澳大利亞的各行業(yè)中的經(jīng)驗(yàn),銀行業(yè)中國(guó)工商銀行中國(guó)招商銀行中國(guó)建設(shè)銀行中國(guó)交通銀行 中國(guó)中信銀行中國(guó)國(guó)家開(kāi)發(fā)銀行中國(guó)廣東發(fā)展銀行中國(guó)人民銀行中國(guó)平安保險(xiǎn)中國(guó)證監(jiān)會(huì),日本JCB澳洲國(guó)民銀行 澳洲Westpac銀行 香港上海匯豐銀行 渣打銀行 美國(guó)大通信用卡 大新銀行 中國(guó)銀行信用卡(國(guó)際)有限公司 海外信托銀行有限公司 永享銀行 香港星展銀行 亞洲聯(lián)合財(cái)務(wù)有限公司 泰國(guó)Ayudhya銀行泰

5、國(guó)Siam City 銀行,6,電訊行業(yè)中國(guó)移動(dòng)有限公司 中國(guó)聯(lián)通有限公司 澳洲Optus電訊有限公司 香港電訊(PCCW)有限公司 香港和記黃埔有限公司 香港和記環(huán)球電訊有限公司 香港數(shù)碼通移動(dòng)通訊有限公司 泰國(guó)電訊有限公司 泰國(guó)AIS電訊有限公司 馬來(lái)西亞Maxis電訊有限公司,團(tuán)隊(duì)成員在亞太地區(qū)及澳大利亞的各行業(yè)中的經(jīng)驗(yàn),7,團(tuán)隊(duì)成員在亞太地區(qū)及澳大利亞的各行業(yè)中的經(jīng)驗(yàn),保險(xiǎn)業(yè)澳洲MBF保險(xiǎn), 澳洲蘇黎世保

6、險(xiǎn) 零售業(yè)百佳超級(jí)市場(chǎng), 加德士澳洲有限公司政府部門(mén)香港特別行政區(qū)統(tǒng)計(jì)處, 香港貿(mào)易發(fā)展局 中國(guó)海關(guān)總署,半導(dǎo)體業(yè)摩托羅拉, 英特爾媒體調(diào)研行業(yè)蓋洛普(中國(guó))有限公司北京電視臺(tái)特雷森信息中心,8,公司介紹,華策輝弘科技有限公司更多信息:請(qǐng)?jiān)L問(wèn)公司網(wǎng)站www.sdat-asia.com或者與我們聯(lián)系: +86 755 3336 1183,9,,數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ摂?shù)據(jù)挖掘項(xiàng)目

7、實(shí)施流程專(zhuān)題1:業(yè)務(wù)目標(biāo)選定專(zhuān)題2:數(shù)據(jù)挖掘項(xiàng)目評(píng)估方法專(zhuān)題3:數(shù)據(jù)挖掘項(xiàng)目管理專(zhuān)題4:數(shù)據(jù)挖掘項(xiàng)目實(shí)施中的重要規(guī)范,主題,10,美國(guó)聯(lián)邦調(diào)查局(FBI)對(duì)地區(qū)調(diào)查員提交的大量報(bào)告進(jìn)行審查,尋找和爆炸事件的聯(lián)系。.使用鏈路分析,聚類(lèi)和規(guī)則歸納等分析方法來(lái)識(shí)別可能的線(xiàn)索。,現(xiàn)實(shí)世界中的數(shù)據(jù)挖掘可以用來(lái)干什么?—— 搜索制造爆炸的恐怖分子,數(shù)據(jù)挖掘概述,11,現(xiàn)實(shí)世界中的數(shù)據(jù)挖掘可以用來(lái)干什么?—— 誰(shuí)會(huì)同意擴(kuò)大軍費(fèi)開(kāi)

8、支?,美國(guó)國(guó)會(huì)對(duì)擴(kuò)大軍費(fèi)開(kāi)支進(jìn)行投票。普遍認(rèn)為有軍隊(duì)服役背景的議員會(huì)投贊成票,真實(shí)情況是這樣的嗎?,數(shù)據(jù)挖掘概述,12,就象解謎語(yǔ)一樣, 數(shù)據(jù)挖掘從大量復(fù)雜的數(shù)據(jù)中發(fā)現(xiàn)直接有效的信息和知識(shí).,面對(duì)成千上萬(wàn)的客戶(hù), 如何滿(mǎn)足您最好的客戶(hù) ? 如何把損失降到最低 ? 如何更有效地分配資源 ?,數(shù)據(jù)挖掘概述,13,數(shù)據(jù)分析的最初,數(shù)據(jù)分析能力受到計(jì)算能力和存儲(chǔ)能力的限制. 1959年,IBM大型機(jī)7090, 0.5 MHz 處理

9、器 0.2 MB內(nèi)存! 一個(gè)600行,4列的數(shù)據(jù)集需要約3000張打孔卡片! 分析時(shí),一次同時(shí)考慮的變量最多達(dá)到25個(gè)!,數(shù)據(jù)挖掘概述,14,促進(jìn)數(shù)據(jù)挖掘發(fā)展的要素,數(shù)據(jù) —— 大量的,運(yùn)營(yíng)型數(shù)據(jù)用戶(hù)和需求 ——業(yè)務(wù)決策支持的需求技術(shù)和方法 —— 計(jì)算能力的飛速發(fā)展 —— 多學(xué)科領(lǐng)域研究的發(fā)展,數(shù)據(jù)挖掘概述,15,數(shù)據(jù),試驗(yàn)性的 運(yùn)營(yíng)性的,用途研究運(yùn)營(yíng)價(jià)值科學(xué)

10、商業(yè)產(chǎn)生主動(dòng)控制被動(dòng)記錄數(shù)據(jù)量小大質(zhì)量清潔骯臟狀態(tài)靜態(tài)動(dòng)態(tài),數(shù)據(jù)挖掘概述,16,,數(shù)據(jù)洪水已經(jīng)來(lái)臨:,大量的數(shù)據(jù)在產(chǎn)生:金融、電信以及其它行業(yè)的交易數(shù)據(jù)科學(xué)實(shí)驗(yàn)數(shù)據(jù):天文、空間探索、生物及高能物理等Web 數(shù)據(jù):文字、圖像及其它多媒體格式,數(shù)據(jù)挖掘概述,17,擁有16個(gè)望遠(yuǎn)鏡的歐洲長(zhǎng)基線(xiàn)干擾儀在25天的觀(guān)察期中每秒鐘產(chǎn)生1G數(shù)據(jù)2003年,法國(guó)電信的呼叫數(shù)據(jù)為30TB,A

11、T&T以26TB的數(shù)據(jù)量位居第二,如此多的呼叫數(shù)據(jù)以致于A(yíng)T&T無(wú)法全部保存,對(duì)數(shù)據(jù)的分析也只能是“粗略”的Google,40億以上的頁(yè)面(2004年4月統(tǒng)計(jì)),數(shù)據(jù)量為nTB據(jù)加州大學(xué)伯克利分校的研究人員統(tǒng)計(jì),2002年新產(chǎn)生數(shù)據(jù)為1999年的2倍,而且數(shù)據(jù)的膨脹在不斷加速,,“天文”數(shù)據(jù)量:,數(shù)據(jù)挖掘概述,18,用戶(hù)和需求:對(duì)于復(fù)雜現(xiàn)象的簡(jiǎn)單結(jié)論,市場(chǎng) – 誰(shuí)將會(huì)購(gòu)買(mǎi)這個(gè)產(chǎn)品?預(yù)測(cè) – 我們將面臨何種需求?

12、忠誠(chéng)度 – 誰(shuí)最有可能流失?信用 - 哪一類(lèi)人群不還款的傾向嚴(yán)重? 欺詐 - 什么時(shí)候會(huì)發(fā)生?,數(shù)據(jù)挖掘概述,19,用戶(hù)和需求,通用 客戶(hù)分群客戶(hù)獲取/保留數(shù)據(jù)庫(kù)營(yíng)銷(xiāo)客戶(hù)生命期價(jià)值 交叉銷(xiāo)售銀行信用記分信用卡欺詐發(fā)現(xiàn) 產(chǎn)品組合分析現(xiàn)金計(jì)劃保險(xiǎn)& 醫(yī)療保健理賠分析欺詐行為,電信呼叫行為分析流失管理欺詐發(fā)現(xiàn)零售/市場(chǎng)菜籃子分析目錄管理信用記分制

13、造/公用事業(yè)流程管理質(zhì)量控制 需求模式資源計(jì)劃倉(cāng)儲(chǔ)計(jì)劃,數(shù)據(jù)挖掘概述,20,數(shù)據(jù)挖掘概述,技術(shù)和方法—— 計(jì)算能力的飛速發(fā)展,Since 1963,,Moore’s Law:The information density on siliconintegrated circuits doubles every18 to 24 months.,Parkinson’s Law:Work expands to fil

14、l the timeavailable for its completion.,21,技術(shù)和方法—— 多學(xué)科領(lǐng)域研究的發(fā)展,廣泛的商業(yè)需求,需要出現(xiàn)一種挖掘數(shù)據(jù)背后隱藏的知識(shí)的手段。1989年8月在美國(guó)底特律召開(kāi)的第11屆國(guó)際人工智能聯(lián)合會(huì)議的專(zhuān)題討論會(huì)上首次出現(xiàn)知識(shí)發(fā)現(xiàn)(KDD)這個(gè)術(shù)語(yǔ),數(shù)據(jù)挖掘(DM)是知識(shí)發(fā)現(xiàn)(KDD)中的一個(gè)特定步驟和核心技術(shù) 數(shù)據(jù)挖掘的研究重點(diǎn)逐漸從發(fā)現(xiàn)方法轉(zhuǎn)向系統(tǒng)應(yīng)用,注重多種發(fā)現(xiàn)策略和技術(shù)的集成,

15、以及多種學(xué)科之間的相互滲透,現(xiàn)在已經(jīng)成為一個(gè)自成體系的應(yīng)用學(xué)科。,數(shù)據(jù)挖掘概述,22,什么是數(shù)據(jù)挖掘?,定義:從海量的數(shù)據(jù)庫(kù)中選擇、探索、識(shí)別出有效的、新穎的、具有潛在效用的乃至最終可理解的模式以獲取商業(yè)利益的非平凡的過(guò)程-Fayyad,Piatetsky Shapiror 1996特征:處理海量的數(shù)據(jù);揭示企業(yè)運(yùn)作中的內(nèi)在規(guī)律;為企業(yè)運(yùn)作提供直接決策分析,并為企業(yè)帶來(lái)巨大經(jīng)濟(jì)效益。,數(shù)據(jù)挖掘概述,23,商業(yè)智能

16、(BI)技術(shù),傳統(tǒng)的商業(yè)智能技術(shù)不能發(fā)現(xiàn)復(fù)雜的關(guān)系,也不能創(chuàng)建商業(yè)領(lǐng)域所需要的預(yù)測(cè)模型,,,Ad-hocSQL,EIS/DSS,統(tǒng)計(jì),OLAP,數(shù)據(jù)挖掘,用戶(hù)直接發(fā)現(xiàn),自動(dòng)發(fā)現(xiàn),查詢(xún)復(fù)雜性(e.g. 維度個(gè)數(shù)),數(shù)據(jù)挖掘概述,24,預(yù)測(cè)的基本原理,預(yù)測(cè)問(wèn)題用于預(yù)測(cè)的歷史數(shù)據(jù)進(jìn)行預(yù)測(cè)分析的工具和方法,數(shù)據(jù)挖掘概述,25,數(shù)據(jù)挖掘——學(xué)習(xí)知識(shí)的過(guò)程,歷史數(shù)據(jù),,學(xué)習(xí)過(guò)程(建模),,模型輸出,新數(shù)據(jù),模型輸出,結(jié)果,建模學(xué)習(xí)階段,應(yīng)

17、用實(shí)施階段,,數(shù)據(jù)挖掘概述,26,數(shù)據(jù)挖掘不是萬(wàn)能的,數(shù)據(jù)挖掘通過(guò)構(gòu)建模型發(fā)現(xiàn)特征模式和關(guān)系. 模型,就象地圖, 是事實(shí)的抽象表示.?dāng)?shù)據(jù)挖掘只是一個(gè)工具, 不是一個(gè)萬(wàn)能魔杖數(shù)據(jù)挖掘不能替代業(yè)務(wù)分析人員或者經(jīng)理們的角色, 但是數(shù)據(jù)挖掘能為他們提供更有力的新工具以改善他們的工作數(shù)據(jù)挖掘既是一門(mén)藝術(shù)又是一門(mén)科學(xué),數(shù)據(jù)挖掘概述,27,,數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ摂?shù)據(jù)挖掘項(xiàng)目實(shí)施流程專(zhuān)題1:業(yè)務(wù)目標(biāo)選定專(zhuān)題2:數(shù)據(jù)

18、挖掘項(xiàng)目評(píng)估方法專(zhuān)題3:數(shù)據(jù)挖掘項(xiàng)目管理專(zhuān)題4:數(shù)據(jù)挖掘項(xiàng)目實(shí)施中的重要規(guī)范,主題,28,我們的日常生活工作離不開(kāi)分析: 數(shù)據(jù)挖掘與一般的分析活動(dòng)的重要區(qū)別:,數(shù)據(jù)挖掘是在有方法論指導(dǎo)的項(xiàng)目實(shí)踐中積累和推廣的,數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ?做什么?怎么做?做!做完以后怎么樣?,29,,以SPSS,NCR等公司為代表的CRISP-DM方法論CRISP-DM是跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程(Cross-Industry Sta

19、ndard Process for Data Mining)的縮寫(xiě)強(qiáng)調(diào)以業(yè)務(wù)理解(Business understanding)、數(shù)據(jù)理解(Data understanding)、數(shù)據(jù)準(zhǔn)備(Data preparation)、建模(Modeling)、評(píng)價(jià)(Evaluation)、發(fā)布(Deployment)為核心環(huán)節(jié),將數(shù)據(jù)挖掘目標(biāo)和商務(wù)目標(biāo)有機(jī)地聯(lián)系在一起,數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ?30,數(shù)據(jù)挖掘方法論 – CRISP-DM,,CRIS

20、P-DMwww.crisp-dm.org,31,數(shù)據(jù)挖掘方法論 – SEMMA,以SAS公司為代表的SEMMA方法論 SEMMA方法論以抽樣(Sample) 、探索(Explore) 、修改(Modify) 、建模(Model) 、評(píng)估(Assess) 為核心環(huán)節(jié),強(qiáng)調(diào)數(shù)據(jù)挖掘過(guò)程是這5個(gè)環(huán)節(jié)的有機(jī)循環(huán)抽樣(Sample)當(dāng)進(jìn)行數(shù)據(jù)挖掘時(shí),首先要從企業(yè)大量數(shù)據(jù)中取出一個(gè)與你要探索問(wèn)題相關(guān)的樣板數(shù)據(jù)子集,而不是動(dòng)用全部企業(yè)數(shù)

21、據(jù)。這就像在對(duì)開(kāi)采出來(lái)礦石首先要進(jìn)行選礦一樣。通過(guò)數(shù)據(jù)樣本的精選,不僅能減少數(shù)據(jù)處理量,節(jié)省系統(tǒng)資源,而且能通過(guò)數(shù)據(jù)的篩選,使你想要它反映的規(guī)律性更加凸現(xiàn)出來(lái)從巨大的企業(yè)數(shù)據(jù)母體中取出哪些數(shù)據(jù)作為樣本數(shù)據(jù)呢?這要依你所要達(dá)到的目標(biāo)來(lái)區(qū)分采用不同的辦法,32,數(shù)據(jù)挖掘方法論 – SEMMA,以SAS公司為代表的SEMMA方法論探索(Explore)前面所敘述的數(shù)據(jù)取樣,多少是帶著人們對(duì)如何達(dá)到數(shù)據(jù)挖掘目的的先驗(yàn)的認(rèn)識(shí)進(jìn)行操作的。當(dāng)我

22、們拿到了一個(gè)樣本數(shù)據(jù)集后,它是否達(dá)到我們?cè)瓉?lái)設(shè)想的要求;其中有沒(méi)有什么明顯的規(guī)律和趨勢(shì);有沒(méi)有出現(xiàn)你所從未設(shè)想過(guò)的數(shù)據(jù)狀態(tài);因素之間有什么相關(guān)性;它們可區(qū)分成怎樣一些類(lèi)別……這都是要首先探索的內(nèi)容修改(Modify)通過(guò)上述兩個(gè)步驟的操作,你對(duì)數(shù)據(jù)的狀態(tài)和趨勢(shì)可能有了進(jìn)一步的了解。對(duì)你原來(lái)要解決的問(wèn)題可能會(huì)有了進(jìn)一步的明確;這時(shí)要盡可能對(duì)問(wèn)題解決的要求能進(jìn)一步的量化。問(wèn)題越明確,越能進(jìn)一步量化,問(wèn)題就向它的解決更前進(jìn)了一步。這是十分

23、重要的。因?yàn)樵瓉?lái)的問(wèn)題很可能是諸如質(zhì)量不好、生產(chǎn)率低等模糊的問(wèn)題,沒(méi)有問(wèn)題的進(jìn)一步明確,你簡(jiǎn)直就無(wú)法進(jìn)行有效的數(shù)據(jù)挖掘操作針對(duì)問(wèn)題的需要可能要對(duì)數(shù)據(jù)進(jìn)行增刪;也可能按照你對(duì)整個(gè)數(shù)據(jù)挖掘過(guò)程的新認(rèn)識(shí),要組合或者生成一些新的變量,以體現(xiàn)對(duì)狀態(tài)的有效的描述,33,數(shù)據(jù)挖掘方法論 – SEMMA,以SAS公司為代表的SEMMA方法論建模(Model)這一步是數(shù)據(jù)挖掘工作的核心環(huán)節(jié)。按照SAS提出的SEMMA方法論走到這一步時(shí),你對(duì)應(yīng)采用的

24、技術(shù)已有了較明確的方向;你的數(shù)據(jù)結(jié)構(gòu)和內(nèi)容也有了充分的適應(yīng)性。SAS在這時(shí)也向你提供了充分的可選擇的技術(shù)手段:回歸分析方法等廣泛的數(shù)理統(tǒng)計(jì)方法;關(guān)聯(lián)分析方法;分類(lèi)及聚類(lèi)分析方法;人工神經(jīng)元網(wǎng)絡(luò);決策樹(shù)……等。在你的數(shù)據(jù)挖掘中使用哪一種方法,用SAS軟件包中什么方法來(lái)實(shí)現(xiàn),這主要取決于你的數(shù)據(jù)集的特征和你要實(shí)現(xiàn)的目標(biāo)。實(shí)際上這種選擇也不一定是唯一的。好在SAS軟件運(yùn)行效率十分高,你不妨多試幾種方法,從實(shí)踐中選出最適合于你的方法。評(píng)估(

25、Assess)從上述過(guò)程中將會(huì)得出一系列的分析結(jié)果、模式或模型。同一個(gè)數(shù)據(jù)源可以利用多種數(shù)據(jù)分析方法和模型進(jìn)行分析,ASSESS 的目的之一就是從這些模型中自動(dòng)找出一個(gè)最好的模型出來(lái),另外就是要對(duì)模型進(jìn)行針對(duì)業(yè)務(wù)的解釋和應(yīng)用。若能從模型中得出一個(gè)直接的結(jié)論當(dāng)然很好。但更多的時(shí)候會(huì)得出對(duì)目標(biāo)問(wèn)題多側(cè)面的描述。這時(shí)就要能很好的綜合它們的影響規(guī)律性提供合理的決策支持信息。所謂合理,實(shí)際上往往是要你在所付出的代價(jià)和達(dá)到預(yù)期目標(biāo)的可靠性的平衡

26、上做出選擇。,34,,數(shù)據(jù)挖掘方法論 – SEMMA,,完整的SEMMA方法論與外圍環(huán)節(jié),,數(shù)據(jù)挖掘周期,核心,外圍,,,,,,,SAS公司的數(shù)據(jù)挖掘項(xiàng)目方法論:,35,實(shí)際上這兩種方法論本身并不矛盾,CRISP-DM強(qiáng)調(diào)高層的商務(wù)目的實(shí)現(xiàn)過(guò)程,SEMMA強(qiáng)調(diào)具體的數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)過(guò)程,實(shí)際上,很多的項(xiàng)目中,是將二者有機(jī)地結(jié)合起來(lái)運(yùn)用的方法論的實(shí)踐,需要人力資源、技術(shù)和經(jīng)驗(yàn)三方面的配合,,數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ?36,,數(shù)據(jù)挖掘概述

27、數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ摂?shù)據(jù)挖掘項(xiàng)目實(shí)施流程專(zhuān)題1:業(yè)務(wù)目標(biāo)選定專(zhuān)題2:數(shù)據(jù)挖掘項(xiàng)目評(píng)估方法專(zhuān)題3:數(shù)據(jù)挖掘項(xiàng)目管理專(zhuān)題4:數(shù)據(jù)挖掘項(xiàng)目實(shí)施中的重要規(guī)范,主題,37,數(shù)據(jù)挖掘過(guò)程是多個(gè)步驟相互連接、反復(fù)交互的過(guò)程。具體包括:,定義問(wèn)題,準(zhǔn)備數(shù)據(jù),建立模型,應(yīng)用模型,確定業(yè)務(wù)問(wèn)題和目標(biāo)將問(wèn)題和目標(biāo)轉(zhuǎn)換為合適的分析方法,確定建模數(shù)據(jù)結(jié)構(gòu)和原始數(shù)據(jù)的需求獲取原始數(shù)據(jù)對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,生成建模數(shù)據(jù),訓(xùn)練和調(diào)整模型評(píng)

28、估模型并選擇最佳模型解釋模型,應(yīng)用模型或發(fā)現(xiàn)的模式和知識(shí)監(jiān)控和評(píng)價(jià)模型的應(yīng)用效果,數(shù)據(jù)挖掘項(xiàng)目實(shí)施流程,38,數(shù)據(jù)挖掘所需知識(shí)和技能,某個(gè)領(lǐng)域的業(yè)務(wù)知識(shí)(業(yè)務(wù)專(zhuān)家)——理解業(yè)務(wù)問(wèn)題的細(xì)節(jié)和特殊性,背景業(yè)務(wù)知識(shí),內(nèi)容含義,術(shù)語(yǔ),知道對(duì)該業(yè)務(wù)問(wèn)題的當(dāng)前處理方法和優(yōu)劣。 數(shù)據(jù)知識(shí)和處理能力(數(shù)據(jù)專(zhuān)家) ——理解數(shù)據(jù)的結(jié)構(gòu),格式,數(shù)據(jù)源的狀況,數(shù)據(jù)量的大小,有對(duì)數(shù)據(jù)操作的能力。 分析方法和技能(分析專(zhuān)家)——理解和該業(yè)務(wù)

29、問(wèn)題相關(guān)的分析方法的特點(diǎn)和局限,有使用相關(guān)算法進(jìn)行數(shù)據(jù)分析和建模的能力。,這三種知識(shí)和技能根據(jù)實(shí)際情況可能會(huì)體現(xiàn)在1個(gè)人,2個(gè)人或3個(gè)人身上。,數(shù)據(jù)挖掘項(xiàng)目實(shí)施流程,39,最關(guān)鍵的是理解業(yè)務(wù)和技術(shù)的綜合能力,,具有分析架構(gòu)設(shè)計(jì)能力的分析專(zhuān)家,是建立數(shù)據(jù)和業(yè)務(wù)之間的橋梁!,數(shù)據(jù)挖掘項(xiàng)目實(shí)施流程,40,確定業(yè)務(wù)問(wèn)題和目標(biāo),為什么重要?常見(jiàn)的誤區(qū):很多人以為不需要事先確定問(wèn)題和目標(biāo),只要對(duì)數(shù)據(jù)使用數(shù)據(jù)挖掘技術(shù),然后再對(duì)分析挖掘后的結(jié)果進(jìn)行尋

30、找和解釋?zhuān)匀粫?huì)找到一些以前我們不知道的,有用的規(guī)律和知識(shí),這就是所謂的數(shù)據(jù)挖掘能夠發(fā)掘隱藏在數(shù)據(jù)背后的金塊的神奇魔力。,“人們確實(shí)需要知道他們?cè)趯ふ沂裁?,并且知道一旦找到了所要找的東西,要做些什么?!? Beck 1997,數(shù)據(jù)挖掘項(xiàng)目實(shí)施流程,41,確定業(yè)務(wù)問(wèn)題和目標(biāo),如何做好?先請(qǐng)看幾個(gè)例子:,了解我們的客戶(hù)挽留更多的客戶(hù),對(duì)數(shù)據(jù)庫(kù)進(jìn)行聚類(lèi)使用神經(jīng)元網(wǎng)絡(luò),對(duì)客戶(hù)進(jìn)行細(xì)分,了解不同客戶(hù)群的特征和需求,以便有針對(duì)性的營(yíng)銷(xiāo)。

31、預(yù)測(cè)客戶(hù)的流失傾向和特征,以便提前主動(dòng)進(jìn)行有針對(duì)性的挽留。,定義太寬泛而不明確,另一個(gè)極端:過(guò)于技術(shù)化,關(guān)鍵:業(yè)務(wù)語(yǔ)言和技術(shù)語(yǔ)言的良好溝通,確定以提升業(yè)務(wù)價(jià)值為核心,與分析相關(guān)的可操作性強(qiáng)的明確目標(biāo)。不要忽視業(yè)務(wù)人員和分析人員任何一方的參與。,數(shù)據(jù)挖掘項(xiàng)目實(shí)施流程,42,將問(wèn)題和目標(biāo)轉(zhuǎn)換為合適的分析方法,預(yù)測(cè)聚類(lèi)關(guān)聯(lián)其他,不同的分析方法是針對(duì)不同的特定問(wèn)題的,不同的分析方法對(duì)數(shù)據(jù)的要求也不同。,數(shù)據(jù)挖掘項(xiàng)目實(shí)施流程,43,流失預(yù)測(cè)

32、案例——定義問(wèn)題,分析的方法,客戶(hù)流失率高,每年30%客戶(hù)流失 每年流失損失2億 無(wú)法預(yù)知客戶(hù)流失傾向 無(wú)法主動(dòng)有效的挽留客戶(hù),預(yù)測(cè)客戶(hù)的流失傾向識(shí)別高流失傾向客戶(hù)的特征以便提前主動(dòng)進(jìn)行有針對(duì)性的挽留從而降低流失率,減少流失損失,用預(yù)測(cè)模型預(yù)測(cè)客戶(hù)流失的可能性 用預(yù)測(cè)模型得到影響流失的重要因素 用統(tǒng)計(jì)方法和描述變量得到高流失概率客戶(hù)的其他特征 輸出高流失概率客戶(hù)列表和特征描述,分析的目的,業(yè)務(wù)問(wèn)題起源,示例,數(shù)據(jù)挖

33、掘項(xiàng)目實(shí)施流程,44,確定建模數(shù)據(jù)結(jié)構(gòu)和原始數(shù)據(jù)的需求,數(shù)據(jù)中必須包含你想分析的內(nèi)容數(shù)據(jù)的定義要符合業(yè)務(wù)規(guī)則利用業(yè)務(wù)知識(shí)建立新的變量使用最新的數(shù)據(jù)數(shù)據(jù)的可獲取性,數(shù)據(jù)挖掘項(xiàng)目實(shí)施流程,45,獲取原始數(shù)據(jù),ETL系統(tǒng)架構(gòu)和流程—— 考慮效率和對(duì)源系統(tǒng)的影響數(shù)據(jù)的完整性和一致性——對(duì)原始數(shù)據(jù)的真實(shí)體現(xiàn)數(shù)據(jù)的檢查和清理——數(shù)據(jù)質(zhì)量的保證,數(shù)據(jù)挖掘項(xiàng)目實(shí)施流程,46,數(shù)據(jù)預(yù)處理,數(shù)據(jù)匯總數(shù)據(jù)轉(zhuǎn)置計(jì)算生成衍生

34、變量或指標(biāo)其他變換,目的: 形成符合建模需要的格式的數(shù)據(jù)表,數(shù)據(jù)挖掘項(xiàng)目實(shí)施流程,47,流失預(yù)測(cè)案例——準(zhǔn)備數(shù)據(jù),流失定義:流失——拆機(jī)/報(bào)拆/雙停30天;未流失——活動(dòng)客戶(hù)排除客戶(hù):在網(wǎng)時(shí)長(zhǎng)少于一年,在簽約期間的客戶(hù)用戶(hù)的欠費(fèi)次數(shù) –月份1到月份6每個(gè)種類(lèi)的總呼叫次數(shù) – 月份1到月份6平均呼叫持續(xù)時(shí)間,對(duì)應(yīng)各個(gè)呼叫種類(lèi)(國(guó)際,本地,長(zhǎng)途等) -- 月份1到月份6在網(wǎng)時(shí)間平均呼叫次數(shù),對(duì)應(yīng)各個(gè)呼叫種類(lèi)(國(guó)際,本地,長(zhǎng)途等

35、) -- 月份1到月份6……,示例,數(shù)據(jù)挖掘項(xiàng)目實(shí)施流程,48,流失預(yù)測(cè)案例——準(zhǔn)備數(shù)據(jù),示例,數(shù)據(jù)挖掘項(xiàng)目實(shí)施流程,49,訓(xùn)練和調(diào)整模型,合理的數(shù)據(jù)采樣: 使數(shù)據(jù)有代表性,分層采樣,順序采樣,處理小概率事件數(shù)據(jù)分隔: 分為訓(xùn)練,確認(rèn),測(cè)試三個(gè)數(shù)據(jù)集,避免過(guò)擬合,確保模型的穩(wěn)定數(shù)據(jù)探索: 了解數(shù)據(jù)分布模式,發(fā)現(xiàn)數(shù)據(jù)異常必要的數(shù)據(jù)變換: 處理缺失值,異常值,改變數(shù)據(jù)分布形態(tài),數(shù)據(jù)分段,減少有效變量數(shù)量模型參數(shù)的調(diào)整和優(yōu)化,,,數(shù)

36、據(jù)挖掘項(xiàng)目實(shí)施流程,50,評(píng)估和選擇最佳模型,評(píng)價(jià)模型的穩(wěn)定性和準(zhǔn)確性:模型在確認(rèn)數(shù)據(jù)上的表現(xiàn)如何,是否穩(wěn)定?模型準(zhǔn)確度如何,和無(wú)模型相比有多少提升?哪一個(gè)模型最好?很多評(píng)估方法或圖形可以提供幫助:十分位數(shù)分析Lift Charts(又叫 gains chart)利潤(rùn)/損失圖(Profit/Loss Charts) 投資效益比圖(ROI) 診斷分類(lèi)圖ROC Charts 各種基于臨界值的圖形(Threshold-b

37、ased Charts),,,,數(shù)據(jù)挖掘項(xiàng)目實(shí)施流程,51,解釋模型,對(duì)模型的結(jié)果進(jìn)行分析采用輔助手段是規(guī)律更加凸顯和易懂,如統(tǒng)計(jì),數(shù)據(jù)可視化,報(bào)表甚至外部調(diào)查用業(yè)務(wù)語(yǔ)言描述發(fā)現(xiàn)的規(guī)律或模式根據(jù)這些規(guī)律,提出業(yè)務(wù)上的解釋和建議,需要業(yè)務(wù)知識(shí)和對(duì)數(shù)據(jù)的分析的緊密結(jié)合,集中體現(xiàn)業(yè)務(wù)領(lǐng)悟力和創(chuàng)造性,這是最激動(dòng)人心的時(shí)刻,發(fā)現(xiàn)了知識(shí)!同時(shí)也是需要你有耐心的時(shí)候。,數(shù)據(jù)挖掘項(xiàng)目實(shí)施流程,52,流失預(yù)測(cè)案例——建立模型,過(guò)采樣,處理小概率事件

38、調(diào)整模型參數(shù),示例,數(shù)據(jù)挖掘項(xiàng)目實(shí)施流程,53,流失預(yù)測(cè)案例——建立模型,模型結(jié)果解釋模型評(píng)估,,},前30%預(yù)測(cè)流失客戶(hù)中就捕捉到58%的實(shí)際流失客戶(hù),示例,數(shù)據(jù)挖掘項(xiàng)目實(shí)施流程,隨著模型判斷流失可能性的下降,實(shí)際流失客戶(hù)減少,54,應(yīng)用模型和知識(shí),按照用途,模型可以用來(lái)做:—— 評(píng)分,如客戶(hù)流失計(jì)分,客戶(hù)價(jià)值計(jì)分?!?設(shè)計(jì)策略,如不同客戶(hù)群的營(yíng)銷(xiāo)策略。按照實(shí)施方式,模型可以:—— 集成在現(xiàn)有的業(yè)務(wù)系統(tǒng)中,實(shí)

39、時(shí)評(píng)分?!?應(yīng)用于決策支持系統(tǒng)中,提供決策支持信息?!?集成于在線(xiàn)客戶(hù)服務(wù)系統(tǒng),提供有意義的客戶(hù)信息?!?輸出客戶(hù)列表,為其他系統(tǒng)或應(yīng)用提供數(shù)據(jù)。是否能自動(dòng)應(yīng)用和如何使用,取決于實(shí)際IT系統(tǒng)環(huán)境和業(yè)務(wù)流程。,數(shù)據(jù)挖掘項(xiàng)目實(shí)施流程,55,監(jiān)控和評(píng)價(jià)模型應(yīng)用效果,隨著時(shí)間的推移,市場(chǎng)、客戶(hù)、數(shù)據(jù)的變化,模型的效力必然衰減,并最終失效。最直觀(guān)的監(jiān)控方法就是看看模型應(yīng)用到現(xiàn)實(shí)中的效果好壞,可以通過(guò)和控制組的比較評(píng)價(jià)效

40、果。最終效果與模型,策略的設(shè)計(jì),活動(dòng)的執(zhí)行,其他因素都有關(guān)系,因此要對(duì)每個(gè)環(huán)節(jié)分析。如果對(duì)模型準(zhǔn)確性和穩(wěn)定性評(píng)估證明模型的表現(xiàn)已經(jīng)不可接受,就需要再訓(xùn)練模型。,數(shù)據(jù)挖掘項(xiàng)目實(shí)施流程,56,流失預(yù)測(cè)案例——應(yīng)用模型,流失概率高的客戶(hù)列表,示例,數(shù)據(jù)挖掘項(xiàng)目實(shí)施流程,57,小結(jié),數(shù)據(jù)挖掘是一個(gè)反復(fù)的過(guò)程,不是一次性的,一勞永逸的工作。需要業(yè)務(wù)專(zhuān)家,數(shù)據(jù)專(zhuān)家,分析專(zhuān)家在多個(gè)環(huán)節(jié)上的緊密合作。數(shù)據(jù)挖掘的價(jià)值必須通過(guò)可執(zhí)行的策略和活動(dòng)作用

41、于業(yè)務(wù)上才能體現(xiàn)。關(guān)鍵是掌握從數(shù)據(jù)->知識(shí)->行動(dòng)->業(yè)務(wù)增值的方法論,建立一個(gè)良好的數(shù)據(jù)挖掘平臺(tái)和流程,從而具有按照實(shí)際業(yè)務(wù)的需要和環(huán)境的改變,再訓(xùn)練模型,優(yōu)化模型,開(kāi)發(fā)新的模型的能力。,數(shù)據(jù)挖掘項(xiàng)目實(shí)施流程,58,,數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ摂?shù)據(jù)挖掘項(xiàng)目實(shí)施流程專(zhuān)題1:業(yè)務(wù)目標(biāo)選定專(zhuān)題2:數(shù)據(jù)挖掘項(xiàng)目評(píng)估方法專(zhuān)題3:數(shù)據(jù)挖掘項(xiàng)目管理專(zhuān)題4:數(shù)據(jù)挖掘項(xiàng)目實(shí)施中的重要規(guī)范,主題,59,描述

42、性模型和預(yù)測(cè)性模型的目標(biāo)設(shè)計(jì)差異風(fēng)險(xiǎn)類(lèi)模型的目標(biāo)設(shè)計(jì)營(yíng)銷(xiāo)類(lèi)模型的目標(biāo)設(shè)計(jì),業(yè)務(wù)目標(biāo)選定,60,定義目標(biāo),模型種類(lèi),模型類(lèi)型,選擇算法,,,,,,,數(shù)據(jù)挖掘的最終目標(biāo)是什么?例如:希望用數(shù)據(jù)挖掘技術(shù)留住有價(jià)值的客戶(hù),則需要建立模型來(lái):一、區(qū)別那些客戶(hù)是有價(jià)值的客戶(hù);二、那些客戶(hù)有可能離開(kāi)。,確定合適的模型種類(lèi):1、分類(lèi)。描述一特定用戶(hù)或事件屬于哪一類(lèi);2、回歸。預(yù)測(cè)一個(gè)變量的值。例如可以用分類(lèi)確定用戶(hù)的價(jià)值,用預(yù)測(cè)來(lái)確定那些用戶(hù)有

43、可能會(huì)離開(kāi)。,選擇模型的類(lèi)型,例如用聚類(lèi)來(lái)做分類(lèi),神經(jīng)網(wǎng)絡(luò)、決策樹(shù)來(lái)做預(yù)測(cè),還是用統(tǒng)計(jì)模型,如:邏輯回歸,普通線(xiàn)性模型等。,每種模型都可能用不同的算法來(lái)實(shí)現(xiàn),比如可以用回饋函數(shù)或radial basis函數(shù)來(lái)建立神經(jīng)網(wǎng)絡(luò);決策樹(shù)還有CART、C5.0、QUEST、CHAID等。,描述性模型和預(yù)測(cè)性模型的目標(biāo)設(shè)計(jì)差異,61,數(shù)據(jù)挖掘是從企業(yè)數(shù)據(jù)財(cái)富中導(dǎo)出客戶(hù)洞察的方法. 客戶(hù)洞察通常以描述性或預(yù)測(cè)模型的形式得到.,允許描述數(shù)據(jù)集發(fā)現(xiàn)數(shù)

44、據(jù)中過(guò)去不知道的模式和趨勢(shì)不被目標(biāo)變量所“指導(dǎo)”舉例: 分群, 關(guān)聯(lián)分析,允許預(yù)測(cè)和解釋變量用于開(kāi)發(fā)預(yù)測(cè)模型,該模型的建模過(guò)程受目標(biāo)變量的“指導(dǎo)”舉例: 提升/交叉銷(xiāo)售模型, 獲取模型, 流失模型,描述性/無(wú)監(jiān)督模型,預(yù)測(cè)/有指導(dǎo)模型,數(shù)據(jù)挖掘,描述性模型和預(yù)測(cè)性模型的目標(biāo)設(shè)計(jì)差異,62,① 預(yù)測(cè) 用過(guò)去的數(shù)據(jù)預(yù)測(cè) 未來(lái)發(fā)生什么,預(yù)測(cè)未來(lái)發(fā)生的可能性,歷史數(shù)據(jù),預(yù)測(cè)模型 - 神經(jīng)

45、元網(wǎng)絡(luò) - 決策樹(shù) - 回歸,② 描述 用過(guò)去的數(shù)據(jù) 描述 現(xiàn)在發(fā)生了什么,描述現(xiàn)在已經(jīng)發(fā)生的規(guī)律,歷史數(shù)據(jù),描述模型 - 聚類(lèi) - 關(guān)聯(lián),描述性模型和預(yù)測(cè)性模型的目標(biāo)設(shè)計(jì)差異,63,風(fēng)險(xiǎn)類(lèi)模型的目標(biāo)設(shè)計(jì)業(yè)務(wù)目的是預(yù)警和防范風(fēng)險(xiǎn),在業(yè)務(wù)管理上像“踩剎車(chē)”風(fēng)險(xiǎn)的種類(lèi)流失風(fēng)險(xiǎn)信用風(fēng)險(xiǎn)欺詐風(fēng)險(xiǎn)… …模型的目標(biāo)是預(yù)測(cè) Good / Bad數(shù)據(jù)準(zhǔn)備要包括已經(jīng)發(fā)生了風(fēng)險(xiǎn)的B

46、ad情形和在一定期間內(nèi)沒(méi)有發(fā)生風(fēng)險(xiǎn)的Good情形,業(yè)務(wù)目標(biāo)選定,64,風(fēng)險(xiǎn)類(lèi)模型的目標(biāo)設(shè)計(jì)模型收益通過(guò)對(duì)客戶(hù)風(fēng)險(xiǎn)的預(yù)先量化判別,主動(dòng)采取措施規(guī)避風(fēng)險(xiǎn),控制風(fēng)險(xiǎn)損失通過(guò)模型預(yù)測(cè)的精確性與量化特征,可以有意識(shí)地引入可以容忍的風(fēng)險(xiǎn),合理降低風(fēng)險(xiǎn)控制門(mén)檻,從而擴(kuò)大業(yè)務(wù)發(fā)放規(guī)模模型的應(yīng)用模式利用模型對(duì)每個(gè)客戶(hù)預(yù)測(cè)的風(fēng)險(xiǎn)概率,對(duì)低風(fēng)險(xiǎn)客戶(hù)實(shí)施綠色通道處理,或增加信用額度,促進(jìn)其收益增長(zhǎng)利用模型對(duì)每個(gè)客戶(hù)預(yù)測(cè)的風(fēng)險(xiǎn)概率,對(duì)高風(fēng)險(xiǎn)客戶(hù)實(shí)施紅

47、色預(yù)警處理,或降低信用額度,降低其風(fēng)險(xiǎn)損失利用模型預(yù)測(cè)的風(fēng)險(xiǎn)級(jí)別,減少人工風(fēng)控的工作量,將人工經(jīng)驗(yàn)用在模型情形處理的“刀刃”上,提高風(fēng)控管理的效率可以量化地控管客戶(hù)風(fēng)險(xiǎn)與規(guī)模、收益增長(zhǎng)的關(guān)系,輔助精細(xì)化管理可以利用客戶(hù)風(fēng)險(xiǎn)評(píng)分,監(jiān)控和評(píng)價(jià)客戶(hù)經(jīng)理的工作成效,業(yè)務(wù)目標(biāo)選定,65,風(fēng)險(xiǎn)類(lèi)模型的目標(biāo)設(shè)計(jì)可行性積累和整理足夠數(shù)量和足夠長(zhǎng)度的風(fēng)險(xiǎn)相關(guān)歷史數(shù)據(jù),包括是否發(fā)生風(fēng)險(xiǎn)的情形,與判斷風(fēng)險(xiǎn)相關(guān)的特征(如申請(qǐng)表或交易行為等)利用數(shù)據(jù)

48、建立預(yù)測(cè)模型,為每個(gè)客戶(hù)建立風(fēng)險(xiǎn)評(píng)分針對(duì)風(fēng)險(xiǎn)評(píng)分的高低,采取不同的風(fēng)險(xiǎn)控制策略根據(jù)風(fēng)險(xiǎn)評(píng)分的分布,確定風(fēng)險(xiǎn)控制的門(mén)限(例如,對(duì)于信用卡申請(qǐng)的批準(zhǔn)率設(shè)置),業(yè)務(wù)目標(biāo)選定,66,風(fēng)險(xiǎn)類(lèi)模型的目標(biāo)設(shè)計(jì)目標(biāo)的定義風(fēng)險(xiǎn)模型的目標(biāo)定義一般比業(yè)務(wù)上的風(fēng)險(xiǎn)定義要嚴(yán)格例如:信用風(fēng)險(xiǎn)的目標(biāo)定義往往是拖欠達(dá)到90天及以上,而實(shí)際的業(yè)務(wù)壞賬標(biāo)準(zhǔn)是拖欠達(dá)到180天及以上因?yàn)楦鼑?yán)格的目標(biāo)定義可以為業(yè)務(wù)操作上留取一定的調(diào)整空間;同時(shí),按照實(shí)際的業(yè)務(wù)壞賬標(biāo)

49、準(zhǔn)定義的情形往往在預(yù)測(cè)期就已經(jīng)不可逆轉(zhuǎn),很難根據(jù)預(yù)測(cè)結(jié)果采取有效防范措施;另外,較嚴(yán)格的定義可以獲得更多的Bad樣本,技術(shù)上有利于建立預(yù)測(cè)模型模型上的風(fēng)險(xiǎn)定義也需要取得業(yè)務(wù)人員的認(rèn)可,因?yàn)閷?shí)際風(fēng)險(xiǎn)管理中也經(jīng)常將風(fēng)險(xiǎn)定義收嚴(yán),所以具備達(dá)成一致的條件當(dāng)然,模型風(fēng)險(xiǎn)定義的情形要被證明有足夠高的概率將轉(zhuǎn)換成業(yè)務(wù)上定義的壞賬(可以采用roll-rate分析),業(yè)務(wù)目標(biāo)選定,67,風(fēng)險(xiǎn)類(lèi)模型的目標(biāo)設(shè)計(jì)目標(biāo)的定義是預(yù)測(cè)1個(gè)月出現(xiàn)零次話(huà)的用戶(hù),

50、還是預(yù)測(cè)連續(xù)2個(gè)月或3個(gè)月出現(xiàn)零次話(huà)的用戶(hù)?通過(guò)roll-rate分析,可以幫助我們進(jìn)行預(yù)測(cè)目標(biāo)的確定,,,,,,1個(gè)月零次話(huà)的用戶(hù),在下一個(gè)月繼續(xù)為零次戶(hù)的可能性為75%,有24%的用戶(hù)下個(gè)月會(huì)自然回復(fù)正常,連續(xù)兩個(gè)月零次話(huà)的用戶(hù),成為3個(gè)月零次戶(hù)的可能性為86 %,自然回復(fù)正常的可能性為14%,從零次戶(hù)的自然回復(fù)正常比率和減少偶然性影響來(lái)看,最終決定以預(yù)測(cè)連續(xù)兩個(gè)月的零次戶(hù)為預(yù)測(cè)目標(biāo),業(yè)務(wù)目標(biāo)選定,示例,68,風(fēng)險(xiǎn)類(lèi)模型的目標(biāo)設(shè)計(jì)

51、避免“偽預(yù)測(cè)”風(fēng)險(xiǎn)現(xiàn)象在發(fā)生之前可能已經(jīng)產(chǎn)生輕度風(fēng)險(xiǎn)現(xiàn)象,如果將此類(lèi)現(xiàn)象當(dāng)作預(yù)測(cè)因子,將產(chǎn)生“偽預(yù)測(cè)”例如,已經(jīng)發(fā)生“預(yù)約停機(jī)”情形的客戶(hù)發(fā)生離網(wǎng)流失的概率很高,但是,在業(yè)務(wù)上,如果這類(lèi)客戶(hù)屬于值得挽留的客戶(hù),已經(jīng)有對(duì)應(yīng)的流程去處理,對(duì)這個(gè)顯而易見(jiàn)的規(guī)律,預(yù)測(cè)失去了意義,無(wú)法體現(xiàn)對(duì)業(yè)務(wù)環(huán)節(jié)的提升;對(duì)業(yè)務(wù)人員來(lái)說(shuō),從表面上一直正常的客戶(hù)中發(fā)現(xiàn)突變的流失風(fēng)險(xiǎn),才能真正提高維系和挽留工作的效率。但是,由于使用這類(lèi)顯而易見(jiàn)的因素作

52、為預(yù)測(cè)因子,在模型技術(shù)評(píng)估上可以獲得很高的預(yù)測(cè)性能指標(biāo),如果沒(méi)有完備綜合的評(píng)估體系,將會(huì)干擾對(duì)模型有效性的確切評(píng)估。,業(yè)務(wù)目標(biāo)選定,69,市場(chǎng)類(lèi)模型的目標(biāo)設(shè)計(jì)業(yè)務(wù)目的是提升市場(chǎng)營(yíng)銷(xiāo)能力,在業(yè)務(wù)管理上像“踩油門(mén)”市場(chǎng)模型的種類(lèi)交叉銷(xiāo)售營(yíng)銷(xiāo)響應(yīng)… …模型的目標(biāo)是預(yù)測(cè)客戶(hù)接受營(yíng)銷(xiāo)的產(chǎn)品組合的機(jī)會(huì)數(shù)據(jù)準(zhǔn)備應(yīng)該包括已經(jīng)接受了營(yíng)銷(xiāo)推薦的情形和沒(méi)有接受營(yíng)銷(xiāo)推薦的情形,業(yè)務(wù)目標(biāo)選定,70,市場(chǎng)類(lèi)模型的目標(biāo)設(shè)計(jì)(以交叉銷(xiāo)

53、售為例)模型收益促進(jìn)重點(diǎn)產(chǎn)品的發(fā)行增加客戶(hù)持有產(chǎn)品的數(shù)目增加持有多種產(chǎn)品的客戶(hù)規(guī)模模型的應(yīng)用模式以各個(gè)獨(dú)立產(chǎn)品之間的相關(guān)性輔助產(chǎn)品組合設(shè)計(jì)找到最強(qiáng)關(guān)聯(lián)的產(chǎn)品組合的購(gòu)買(mǎi)順序,設(shè)計(jì)交叉銷(xiāo)售方案列示出每個(gè)客戶(hù)最適合購(gòu)買(mǎi)的下一個(gè)或者下三個(gè)產(chǎn)品,進(jìn)行全接觸點(diǎn)的統(tǒng)一營(yíng)銷(xiāo)可行性通過(guò)客戶(hù)分群總結(jié)客戶(hù)全方位特征(數(shù)據(jù)挖掘+人工討論結(jié)果)通過(guò)客戶(hù)特征推斷客戶(hù)需求(人工討論為主)根據(jù)客戶(hù)需求選擇或設(shè)計(jì)產(chǎn)品(人工設(shè)計(jì)為主)根據(jù)現(xiàn)有

54、產(chǎn)品的相關(guān)性設(shè)計(jì)產(chǎn)品組合(數(shù)據(jù)挖掘+人工討論結(jié)果)建立客戶(hù)需求與產(chǎn)品組合的匹配(人工設(shè)計(jì)為主)在技術(shù)上和業(yè)務(wù)管理上應(yīng)用交叉銷(xiāo)售模型的結(jié)果,業(yè)務(wù)目標(biāo)選定,71,市場(chǎng)類(lèi)模型的目標(biāo)設(shè)計(jì)(以交叉銷(xiāo)售為例)目標(biāo)的定義 可以使用描述性模型方案,則本身沒(méi)有直接的預(yù)測(cè)目標(biāo)變量,而是利用產(chǎn)品購(gòu)買(mǎi)清單,發(fā)現(xiàn)產(chǎn)品間的潛在關(guān)聯(lián)關(guān)系 可以使用預(yù)測(cè)性模型方案,即以每個(gè)產(chǎn)品的持有為一個(gè)目標(biāo)事件,利用人工神經(jīng)元網(wǎng)絡(luò)等模型進(jìn)行多目標(biāo)的預(yù)測(cè) 在交叉銷(xiāo)售目標(biāo)定義

55、中必須注意排除業(yè)務(wù)上固有的產(chǎn)品綁定和排斥規(guī)則,例如:語(yǔ)音通話(huà)和來(lái)電顯示自身就有很強(qiáng)的綁定性,而低價(jià)位普通手機(jī)和智能手機(jī)之間又具有互斥性避免“偽相關(guān)”分析中可能發(fā)現(xiàn)的強(qiáng)相關(guān)組合,可能因?yàn)闃I(yè)務(wù)本上就是捆綁銷(xiāo)售的產(chǎn)品組合,幾乎沒(méi)有分離銷(xiāo)售過(guò),這將導(dǎo)致“偽相關(guān)”的分析結(jié)果因?yàn)橐郧暗慕壎ê芸赡苁桥哪X袋的結(jié)果,如果數(shù)據(jù)挖掘不排除這些情形,就會(huì)干擾發(fā)現(xiàn)真正具有自然相關(guān)性的產(chǎn)品組合的過(guò)程,業(yè)務(wù)目標(biāo)選定,72,市場(chǎng)類(lèi)模型的目標(biāo)設(shè)計(jì)(以營(yíng)銷(xiāo)響應(yīng)為例)

56、模型收益在投放成本不變的情況下,取得最大化的營(yíng)銷(xiāo)響應(yīng)率模型的應(yīng)用模式根據(jù)營(yíng)銷(xiāo)響應(yīng)率預(yù)測(cè)的高低,針對(duì)性地選取投放對(duì)象,提升營(yíng)銷(xiāo)活動(dòng)的成本收益率根據(jù)營(yíng)銷(xiāo)響應(yīng)率預(yù)測(cè)的高低,進(jìn)行營(yíng)銷(xiāo)活動(dòng)的預(yù)演,在策劃階段就提高活動(dòng)的針對(duì)性利用不同產(chǎn)品營(yíng)銷(xiāo)響應(yīng)率的分布,進(jìn)行優(yōu)化的客戶(hù)-產(chǎn)品匹配設(shè)計(jì),業(yè)務(wù)目標(biāo)選定,73,市場(chǎng)類(lèi)模型的目標(biāo)設(shè)計(jì)(以營(yíng)銷(xiāo)響應(yīng)為例)可行性根據(jù)已經(jīng)發(fā)生過(guò)的營(yíng)銷(xiāo)活動(dòng)的結(jié)果,準(zhǔn)備有/無(wú)響應(yīng)的客戶(hù)群體數(shù)據(jù)通過(guò)客戶(hù)分群總結(jié)客戶(hù)全方

57、位特征(數(shù)據(jù)挖掘+人工討論結(jié)果)總結(jié)營(yíng)銷(xiāo)活動(dòng)的特征(人工分類(lèi))通過(guò)客戶(hù)特征、營(yíng)銷(xiāo)活動(dòng)特征與營(yíng)銷(xiāo)響應(yīng)結(jié)果建立營(yíng)銷(xiāo)響應(yīng)結(jié)果預(yù)測(cè)模型(數(shù)據(jù)挖掘)通過(guò)預(yù)測(cè)模型為建立基于響應(yīng)概率的客戶(hù)列表(數(shù)據(jù)挖掘)根據(jù)模型結(jié)果優(yōu)化營(yíng)銷(xiāo)投放目標(biāo)客戶(hù)群(數(shù)據(jù)挖掘+人工篩選),業(yè)務(wù)目標(biāo)選定,74,市場(chǎng)類(lèi)模型的目標(biāo)設(shè)計(jì)(以營(yíng)銷(xiāo)響應(yīng)為例)目標(biāo)的定義營(yíng)銷(xiāo)響應(yīng)事件(有/無(wú))需要規(guī)定響應(yīng)的程度(接到推薦/完整地接聽(tīng)推薦/對(duì)推薦產(chǎn)程回饋(如回復(fù)短信)/表示對(duì)推薦的

58、正面評(píng)價(jià)/購(gòu)買(mǎi)推薦的產(chǎn)品組合),最終購(gòu)買(mǎi)作為目標(biāo)可以直接關(guān)聯(lián)業(yè)務(wù)收益目標(biāo),但是存在跟蹤難度,因?yàn)楹芏嗫蛻?hù)并不是當(dāng)場(chǎng)購(gòu)買(mǎi),而是事后從別的渠道購(gòu)買(mǎi)通常,以對(duì)推薦產(chǎn)程回饋(如回復(fù)短信)為目標(biāo)響應(yīng)事件,因?yàn)榻咏罱K正面結(jié)果,同時(shí)可操作性強(qiáng)注意選取一定的考察期,對(duì)于營(yíng)銷(xiāo)活動(dòng)很長(zhǎng)時(shí)間后才響應(yīng)的客戶(hù),視為不響應(yīng),業(yè)務(wù)目標(biāo)選定,75,,數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘?qū)嵤┓椒ㄕ摂?shù)據(jù)挖掘項(xiàng)目實(shí)施流程專(zhuān)題1:業(yè)務(wù)目標(biāo)選定專(zhuān)題2:數(shù)據(jù)挖掘項(xiàng)目評(píng)估方

59、法專(zhuān)題3:數(shù)據(jù)挖掘項(xiàng)目管理專(zhuān)題4:數(shù)據(jù)挖掘項(xiàng)目實(shí)施中的重要規(guī)范,主題,76,數(shù)據(jù)挖掘項(xiàng)目有沒(méi)有效果,數(shù)據(jù)挖掘項(xiàng)目評(píng)估方法,?,技術(shù)指標(biāo)優(yōu)秀的模型好像幫不到業(yè)務(wù)指標(biāo)的提升,為什么看到別人的案例收效很大,但是自己做的項(xiàng)目卻沒(méi)有類(lèi)似的收效,花了這么多功夫,如果做出來(lái)的模型響應(yīng)率達(dá)不到90%是不是還很失敗,數(shù)據(jù)挖掘項(xiàng)目該如何評(píng)估,77,兼顧業(yè)務(wù)和技術(shù):從模型的技術(shù)指標(biāo)和對(duì)業(yè)務(wù)的提升作用兩方面來(lái)評(píng)估,并注重其中的關(guān)聯(lián)性兼顧結(jié)果和過(guò)程

60、既要考察模型最終結(jié)果在業(yè)務(wù)和技術(shù)上的收效,也要看到模型開(kāi)發(fā)過(guò)程中發(fā)現(xiàn)的問(wèn)題和改善的環(huán)節(jié)兼顧絕對(duì)提升和相對(duì)提升既要考察項(xiàng)目后技術(shù)指標(biāo)和業(yè)務(wù)指標(biāo)的絕對(duì)值水準(zhǔn),也要考察指標(biāo)相對(duì)于以前的相對(duì)提升考慮業(yè)界普遍規(guī)律以業(yè)界的普遍水準(zhǔn)為參考,考察項(xiàng)目取得的收益。例如,直郵營(yíng)銷(xiāo)的普遍回復(fù)率不到1%,如果項(xiàng)目能夠提升到8%-10%,已經(jīng)是相當(dāng)突出的效果了。,數(shù)據(jù)挖掘項(xiàng)目評(píng)估方法,建立數(shù)據(jù)挖掘項(xiàng)目評(píng)估體系的要點(diǎn),78,數(shù)據(jù)挖掘項(xiàng)目評(píng)估方法,數(shù)

61、據(jù)挖掘項(xiàng)目評(píng)估體系,業(yè)務(wù)評(píng)估,技術(shù)評(píng)估,宏觀(guān)市場(chǎng)指標(biāo)評(píng)估 占有率 客戶(hù)構(gòu)成 客戶(hù)貢獻(xiàn)度 成本/收益率 規(guī)模/增長(zhǎng)速度微觀(guān)市場(chǎng)指標(biāo)評(píng)估 客戶(hù)細(xì)分群構(gòu)成 細(xì)分客戶(hù)貢獻(xiàn)度 細(xì)分風(fēng)險(xiǎn)損失 細(xì)分客戶(hù)親和力 細(xì)分客戶(hù)接觸效果評(píng)估特定業(yè)務(wù)活動(dòng)(如營(yíng)銷(xiāo))的收效評(píng)估,模型適用范圍評(píng)估模型技術(shù)性能評(píng)估模型/非模

62、型提升率對(duì)比模型合理性評(píng)估模型魯棒性評(píng)估模型開(kāi)發(fā)成本模型實(shí)施和維護(hù)成本,項(xiàng)目投入成本評(píng)估 業(yè)務(wù)實(shí)施投入 技術(shù)實(shí)施投入 時(shí)間成本 機(jī)會(huì)成本項(xiàng)目過(guò)程收效評(píng)估 模型對(duì)工作效率的提升 模型建立過(guò)程中梳理業(yè)務(wù)問(wèn)題和數(shù)據(jù)問(wèn)題的潛在貢獻(xiàn),79,業(yè)務(wù)評(píng)估:從模型對(duì)業(yè)務(wù)和管理的實(shí)際提升效果來(lái)評(píng)估數(shù)據(jù)挖掘項(xiàng)目技術(shù)評(píng)估從結(jié)果的性能、穩(wěn)定性和合理性等方面來(lái)評(píng)

63、估數(shù)據(jù)挖掘項(xiàng)目,數(shù)據(jù)挖掘項(xiàng)目評(píng)估方法,80,技術(shù)評(píng)估模型適用范圍評(píng)估模型建立時(shí)使用的數(shù)據(jù)與最終投入應(yīng)用時(shí)不同,例如建模數(shù)據(jù)可能是一年前的業(yè)務(wù)環(huán)境下,或者只是幾個(gè)中心城市的數(shù)據(jù);在投入使用時(shí),需要將模型結(jié)果在最終投入應(yīng)用的數(shù)據(jù)上進(jìn)行驗(yàn)證,考察模型的性能在不同范圍的分布情形;最終的結(jié)論包括模型在不同地域、時(shí)間段范圍上的適用程度列表,進(jìn)而導(dǎo)出模型的適用范圍,數(shù)據(jù)挖掘項(xiàng)目評(píng)估方法,81,技術(shù)評(píng)估模型技術(shù)性能評(píng)估主要包括通常的顯著性檢

64、驗(yàn),包括(但不限于)衡量模型對(duì)于目標(biāo)和非目標(biāo)區(qū)分度的KS值,Gini系數(shù)衡量預(yù)測(cè)模型效果的十分位分?jǐn)?shù)段分布檢驗(yàn)衡量不同模型針對(duì)于不建模型的隨機(jī)序列的提升程度的Lift Charts(也叫Gain Charts)衡量預(yù)測(cè)模型命中效果的查全率、查準(zhǔn)率衡量預(yù)測(cè)模型預(yù)測(cè)性能的預(yù)測(cè)-實(shí)際結(jié)果的誤差矩陣衡量描述性模型的特征顯著性的指標(biāo)(例如分群特征相對(duì)于整體特征的差異比率)衡量預(yù)測(cè)模型收益損失的綜合圖表

65、利潤(rùn)/損失圖(Profit/Loss Charts) 投資效益比圖(ROI) 診斷分類(lèi)圖ROC Charts 各種基于臨界值的圖形(Threshold-based Charts),數(shù)據(jù)挖掘項(xiàng)目評(píng)估方法,82,技術(shù)評(píng)估模型/非模型提升率對(duì)比以L(fǎng)ift Charts(也叫Gain Charts)為基礎(chǔ),設(shè)置相應(yīng)的控制組(control group)來(lái)對(duì)比使用模型后的效果與不使用模型的效果;,數(shù)據(jù)挖掘

66、項(xiàng)目評(píng)估方法,83,技術(shù)評(píng)估模型合理性評(píng)估判斷模型的結(jié)果是否合理,模型使用的分析變量是否合理,是否可以被業(yè)務(wù)上理解并應(yīng)用。在一個(gè)實(shí)例中,價(jià)值模型評(píng)分后,大量VIP群體分?jǐn)?shù)較低,這個(gè)結(jié)論是不合理的,因此在合理性評(píng)估上被質(zhì)疑,經(jīng)調(diào)查,是因?yàn)榇罅縑IP群體由于有專(zhuān)門(mén)的客戶(hù)經(jīng)理專(zhuān)門(mén)應(yīng)對(duì),結(jié)果在系統(tǒng)移植時(shí),沒(méi)有將必要的客戶(hù)資料重新錄入到新系統(tǒng)中,造成VIP群體在數(shù)據(jù)上大量缺失,影響了建模結(jié)論。此時(shí)的合理性評(píng)估,起到了為業(yè)務(wù)應(yīng)用把關(guān)的作用

67、。,數(shù)據(jù)挖掘項(xiàng)目評(píng)估方法,84,技術(shù)評(píng)估模型魯棒性(Robustness)評(píng)估即檢驗(yàn)?zāi)P驮跁r(shí)間推移、人群構(gòu)成變化等條件下性能的穩(wěn)定性。常用的模型魯棒性檢驗(yàn)方法包括:1、使用同時(shí)間段不同的樣本來(lái)檢驗(yàn),例如將數(shù)據(jù)劃分為訓(xùn)練、校驗(yàn)和測(cè)試數(shù)據(jù),使用部分參與建模的校驗(yàn)數(shù)據(jù)和完全沒(méi)有參與建模的測(cè)試數(shù)據(jù)進(jìn)行檢驗(yàn)2、使用不同時(shí)間段的數(shù)據(jù)樣本進(jìn)行檢驗(yàn),例如3個(gè)月,6個(gè)月以后的數(shù)據(jù)進(jìn)行檢驗(yàn)其中方法1常在在建模時(shí)采用,用于模型微調(diào);

68、方法2常在模型建立后一段監(jiān)控期內(nèi)采用,用于模型的跟蹤和調(diào)整;在實(shí)際應(yīng)用中,更注重方法2的使用。,數(shù)據(jù)挖掘項(xiàng)目評(píng)估方法,85,技術(shù)評(píng)估開(kāi)發(fā)過(guò)程成本評(píng)估模型開(kāi)發(fā)成本模型實(shí)施和維護(hù)成本,數(shù)據(jù)挖掘項(xiàng)目評(píng)估方法,86,業(yè)務(wù)評(píng)估宏觀(guān)市場(chǎng)指標(biāo)評(píng)估 占有率 客戶(hù)構(gòu)成優(yōu)質(zhì)、中層、靜默等客戶(hù)的占比 客戶(hù)貢獻(xiàn)度包括了客戶(hù)收益和客戶(hù)風(fēng)險(xiǎn)、以及其它成本因素 成本/

69、收益率 規(guī)模/增長(zhǎng)速度,數(shù)據(jù)挖掘項(xiàng)目評(píng)估方法,87,業(yè)務(wù)評(píng)估微觀(guān)市場(chǎng)指標(biāo)評(píng)估 客戶(hù)細(xì)分群構(gòu)成細(xì)分群體中優(yōu)質(zhì)、中層、靜默等客戶(hù)的占比 細(xì)分客戶(hù)貢獻(xiàn)度包括了細(xì)分群體的客戶(hù)收益和客戶(hù)風(fēng)險(xiǎn)、以及其它成本因素細(xì)分風(fēng)險(xiǎn)損失細(xì)分客戶(hù)群的信用、流失、欺詐等風(fēng)險(xiǎn)損失 細(xì)分客戶(hù)親和力細(xì)分客戶(hù)群對(duì)于呼叫中心呼入的傾向,接受外呼的程度,響應(yīng)客戶(hù)經(jīng)理或柜面預(yù)約訪(fǎng)談的程度

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論