大數(shù)據(jù)在金融行業(yè)中的應用_第1頁
已閱讀1頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、<p>  數(shù)據(jù)掘金-大數(shù)據(jù)在金融行業(yè)中的應用</p><p>  在當前大數(shù)據(jù)技術潮流中,各行各業(yè)都在不斷的探索如何應用大數(shù)據(jù)技術以解決企業(yè)面臨的問題。目前國內已有不少金融機構開始嘗試通過大數(shù)據(jù)來驅動相關金融業(yè)務運營。如下是百分點就金融行業(yè)如何應用大數(shù)據(jù)技術提出我們的見解。</p><p>  按照我們的經驗,企業(yè)面向消費者的應用大致可以分為運營、服務和營銷三大類,在金融行業(yè)中

2、這三類應用的典型例子有:</p><p>  運營類:歷史記錄管理、多渠道數(shù)據(jù)整合分析、產品定位分析、客戶洞察分析、客戶全生命周期分析等。</p><p>  服務類:個性化坐席分配、個性化產品推薦、個性化權益匹配、個性化產品定價、客戶體驗優(yōu)化、客戶挽留等。</p><p>  營銷類:互聯(lián)網獲客、產品推廣、交叉銷售、社會化營銷、渠道效果分析等。</p>

3、<p>  大數(shù)據(jù)技術在這些應用中都可以發(fā)揮價值,其核心是通過一系列的技術手段,采集、整合和挖掘用戶全方位的數(shù)據(jù),為每個用戶建立數(shù)據(jù)檔案,也就是常說的“用戶畫像”。</p><p>  大數(shù)據(jù)可應用于金融行業(yè)實時數(shù)據(jù)分析,場景包括:</p><p>  在風險管理領域,可以應用于實時反欺詐、反洗錢,實時風險識別、在線授信等場景;</p><p>  在

4、渠道方面,可以應用于全渠道實時監(jiān)測、資源動態(tài)優(yōu)化配置等場景;</p><p>  在用戶管理和服務領域,可以應用于在線和柜面服務優(yōu)化、客戶流失預警及挽留、個性化推薦、個性化定價等場景;</p><p>  在營銷領域,可以應用于(基于互聯(lián)網用戶行為的)事件式營銷、差異化廣告投放與推廣等場景。</p><p>  大數(shù)據(jù)在金融業(yè)統(tǒng)計分析類應用中的優(yōu)勢</p>

5、;<p>  大數(shù)據(jù)在數(shù)據(jù)量、多種數(shù)據(jù)源、多種數(shù)據(jù)結構、復雜計算任務方面都優(yōu)于傳統(tǒng)的數(shù)據(jù)倉庫技術,這里僅舉兩個例子:</p><p>  大量數(shù)據(jù)的運算,例如:兩張Oracle里面表數(shù)據(jù)分別是1000多萬和800多萬做8層join,放在大數(shù)據(jù)平臺運算比在Oracle里面運算至少快2倍多;</p><p>  對于跨數(shù)據(jù)庫類型的表之間的join,例如一張Oracle的表和一張s

6、qlserver的表,在傳統(tǒng)的數(shù)據(jù)倉庫中是沒有辦法join的??梢詫?shù)據(jù)通過sqoop等工具放到HDFS上面。利用hive,pig, impala,spark等進行更快的處理。</p><p>  大數(shù)據(jù)協(xié)助銀行實現(xiàn)其對客戶的多維度分析</p><p>  有人指出,目前銀行自身的數(shù)據(jù)難以完成客戶全維度分析,那么應用大數(shù)據(jù)又能如何?首先,有幾個問題我們需要仔細思考:什么叫客戶“全維度”?有

7、沒有可能做到“全維度”?按照百分點的理解,不存在對一個人的“全維度”的刻畫,因為我們現(xiàn)實中都做不到。您可以想象,一個人的DNA可以代表他的“全維度”嗎?或者他的所有言論可以代表他的“全維度”嗎?都不可以。我們期望的“全維度”實際上是想說最大可能的利用和挖掘手上的數(shù)據(jù)資源!基于上面的理解,我們認為銀行在大數(shù)據(jù)平臺建設過程中最需要考慮的是如何最大程度的整合所有數(shù)據(jù)源,特別是行內自有數(shù)據(jù)源,并且針對業(yè)務需求做出有價值的分析應用。</p&

8、gt;<p>  其次,假設銀行要引入第三方數(shù)據(jù),這些數(shù)據(jù)怎么利用?這些數(shù)據(jù)如何和行內數(shù)據(jù)整合發(fā)揮價值?這些數(shù)據(jù)又如何轉化為客戶“全維度”分析?顯然的,第三方數(shù)據(jù)也不是直接就能“全維度”的,還是要經過一系列的數(shù)據(jù)分析和挖掘。對銀行客戶了解、并且契合銀行業(yè)務的數(shù)據(jù)一定來自于銀行業(yè)內!任何外部的數(shù)據(jù)都需要經過大量的轉換和業(yè)務解讀才能直接在銀行中使用。如果需要第三方數(shù)據(jù)支撐,銀行必須找到對金融業(yè)務有相當理解,并且已經按照銀行業(yè)務

9、訴求分析好的數(shù)據(jù)才是有價值的。</p><p>  最后,按照我們的理解和實踐經驗,銀行只需要把第三方數(shù)據(jù)看做一個數(shù)據(jù)源即可,“全維度”的關鍵還是如何整合所有數(shù)據(jù)源并進行深度挖掘。</p><p>  在百分點的實際案例中,我們有一套自己的方法論,包括數(shù)據(jù)的集成、清洗、脫敏、多渠道整合、用戶畫像標簽建模、用戶畫像整合、用戶畫像服務等幾個步驟。第三方數(shù)據(jù)是在集成階段就解決的問題,后面各階段關

10、注點都在如何整合、挖掘和應用這些數(shù)據(jù)。</p><p>  相比傳統(tǒng)技術,大數(shù)據(jù)技術的優(yōu)勢如下:</p><p>  大數(shù)據(jù)技術更關注過程數(shù)據(jù)、行為數(shù)據(jù)、非結構化數(shù)據(jù),可以真正做到“全方位”;</p><p>  大數(shù)據(jù)技術在實時性、數(shù)據(jù)量和并發(fā)量上有明顯優(yōu)勢,因為這些技術一開始就是為互聯(lián)網、海量數(shù)據(jù)和高并發(fā)設計的;</p><p>  大數(shù)

11、據(jù)技術在組件化、水平擴展方面有明顯優(yōu)勢,對業(yè)務升級和擴展支持更加平滑。</p><p>  如何選擇大數(shù)據(jù)技術產品</p><p>  選擇大數(shù)據(jù)技術產品最優(yōu)先考慮的原則是什么?大家選擇某一款大數(shù)據(jù)技術產品時,不能只關注某款產品有什么“高端”的功能,而應該關心是這款產品是否能給我們帶來價值,能解決我們的業(yè)務痛點。所以大數(shù)據(jù)產品的關鍵不在于建一個大數(shù)據(jù)的平臺,然后把數(shù)據(jù)進行采集和存儲,而在于

12、這些大數(shù)據(jù)產品能在哪些方面支撐我們的應用場景、能從數(shù)據(jù)中分析出哪些有價值的觀點、能基于數(shù)據(jù)產生哪些數(shù)據(jù)應用、如何為企業(yè)提供增值變現(xiàn)的能力。這一點,我們需要向互聯(lián)網公司學習。大數(shù)據(jù)能夠蓬勃發(fā)展正是因為互聯(lián)網行業(yè)真正讓大數(shù)據(jù)產生豐富的價值,如Google的精準廣告,亞馬遜的“千人千面”推薦等。</p><p>  金融是極度依賴信息化技術的行業(yè),在這個行業(yè)中,業(yè)務場景可以分為下面幾大類:</p><

13、;p>  支撐類。例如海量數(shù)據(jù)的存儲和查詢等。</p><p>  操作類。例如受眾人群篩選、營銷活動策劃等。</p><p>  戰(zhàn)術類。人群分析洞察、產品輿情分析等。</p><p>  戰(zhàn)略類。運營分析報告、新業(yè)務拓展等。</p><p>  不存在一款產品可以支撐以上所有場景,我們在產品選型時應該盡量考慮那些可以支撐更多場景的產

14、品,至少應該了解:</p><p>  該產品適合的直接場景是什么?</p><p>  該產品上已經提供的應用有哪些,支撐了哪些場景?</p><p>  該產品上可以衍生出哪些應用,能夠支撐哪些場景?</p><p>  正是基于上述考慮,百分點才推出了大數(shù)據(jù)技術、大數(shù)據(jù)管理和大數(shù)據(jù)應用三層產品,每一層解決特定的業(yè)務問題,但這些產品可以像

15、搭積木那樣輕松整合在一起。</p><p><b>  大數(shù)據(jù)平臺建設</b></p><p><b>  大數(shù)據(jù)平臺硬件選型</b></p><p>  大數(shù)據(jù)的特點是數(shù)據(jù)量大但往往價值稀疏,從大數(shù)據(jù)里提取價值就像是從大海里撈針,要想完成大海撈針的工作就必須提供性價比可接受的軟硬件解決方案,開源Hadoop解決方案就是典

16、型的代表,通過基于廉價x86架構服務器之上提供海量數(shù)據(jù)存儲和分析解決方案贏得互聯(lián)網界的青睞,所以,這種通過軟件層面來保證數(shù)據(jù)安全和穩(wěn)定,硬件基于標準x86標準服務器的解決方案是未來的主要方式。</p><p>  另外對于x86服務器的硬件選型也是需要考慮的,從實踐經驗來看,我們往往會綜合數(shù)據(jù)量、數(shù)據(jù)應用和成本提供一個平衡性的硬件配置,然后基于平衡型的硬件配置依據(jù)任務作業(yè)情況,調整硬件配置,如IO密集型可能會使用

17、SSD&內存,CPU密集型任務則會選擇高端CPU等。</p><p>  大數(shù)據(jù)平臺建設最佳實踐</p><p>  大數(shù)據(jù)平臺建設中,Hadoop體系所包含的生態(tài)系統(tǒng),如:Hbase,Hive,snoop,pig,spark等子系統(tǒng),那么如何根據(jù)各自的特性,通過組合方式來適應實際需求并應用到具體場景中呢?我們的最佳實踐是利用互聯(lián)網+大數(shù)據(jù)的技術架構,構建Lamda架構,如圖所示:

18、</p><p><b>  數(shù)據(jù)采集</b></p><p>  傳統(tǒng)業(yè)務系統(tǒng)數(shù)據(jù)庫和數(shù)據(jù)集市、數(shù)據(jù)倉庫的數(shù)據(jù),均可以通過Sqoop等數(shù)據(jù)橋接的方式接入大數(shù)據(jù)平臺,同時可以將數(shù)據(jù)庫日志、系統(tǒng)日志等非結構化文本數(shù)據(jù)通過Flume等組件接入大數(shù)據(jù)平臺。</p><p>  銀行線上渠道(網站、APP應用、微信公眾號等)中的用戶行為可以通過數(shù)據(jù)探頭

19、技術,Web端及H5通過JS、移動端通過SDK部碼,采集用戶行為數(shù)據(jù);銀行線下渠道(柜面、ATM等)的用戶行為數(shù)據(jù),需從線下接入的系統(tǒng)數(shù)據(jù)中解構分析。</p><p>  互聯(lián)網公開數(shù)據(jù),如論壇、微博、媒體資訊等,通過數(shù)據(jù)爬取技術進行數(shù)據(jù)采集。</p><p>  也可以利用各種API接口接入其他合作方、第三方等的在線或離線數(shù)據(jù)。</p><p><b>

20、  數(shù)據(jù)分發(fā)</b></p><p>  通過FTP或Kafka消息隊列將數(shù)據(jù)實時分發(fā),分發(fā)后分開實時數(shù)據(jù)處理和離線數(shù)據(jù)存儲和處理兩條線,形成“人”字型的Lamda架構。</p><p><b>  離線數(shù)據(jù)存儲及處理</b></p><p>  基于Hadoop平臺和MpReduce技術的離線數(shù)據(jù)處理,常用的是HBase列式數(shù)據(jù)庫

21、。</p><p><b>  實時數(shù)據(jù)處理</b></p><p>  利用Storm或Spark技術的實時數(shù)據(jù)處理,例如Storm是事實流式處理,Spark(Spark Streaming)是基于內存的實時批處理。</p><p><b>  數(shù)據(jù)存儲</b></p><p>  不同的數(shù)據(jù)類型

22、、不同的業(yè)務場景,需要的不同的數(shù)據(jù)存儲服務,在我們的產品中應用了Redis、MongoDB、MySQL、ElasticSearch等多種存儲服務。</p><p>  百分點基于此架構為銀行提供服務的典型應用場景包括:</p><p>  用戶行為采集分析:利用數(shù)據(jù)探頭(JS、SDK,Nginx、ICE)、數(shù)據(jù)分發(fā)(Kafka)、離線數(shù)據(jù)存儲及處理(HBase)、運營分析結果展現(xiàn)(MySQ

23、L)。</p><p>  跨部門數(shù)據(jù)整合:利用數(shù)據(jù)橋接(Sqoop)、日志接入(Flume)、數(shù)據(jù)分發(fā)(FTP)、離線數(shù)據(jù)存儲存儲及處理(HBase、ES)。</p><p>  離線用戶畫像和用戶洞察(支持營銷):利用離線數(shù)據(jù)存儲存儲及處理(HBase、ES)。</p><p>  實時用戶畫像及推薦:利用實時數(shù)據(jù)處理(Storm、Spark)、數(shù)據(jù)存儲(Red

24、is、MongoDB)。</p><p>  實時反欺詐:利用數(shù)據(jù)接口(API)、數(shù)據(jù)分發(fā)(MQ)、實時數(shù)據(jù)處理(Storm)。</p><p>  大數(shù)據(jù)平臺和現(xiàn)有數(shù)據(jù)倉庫的有效整合</p><p>  目前各行都有自己的數(shù)據(jù)倉庫或數(shù)據(jù)集市平臺,而大數(shù)據(jù)平臺的引入又往往獨立于數(shù)據(jù)倉庫,對于某些場景,將結構化數(shù)據(jù)與非結構化數(shù)據(jù)進行整體結合往往能夠起到更好的效果,如何

25、能夠將大數(shù)據(jù)平臺和現(xiàn)有數(shù)據(jù)倉庫進行有效整合?</p><p>  非結構化數(shù)據(jù)處理與大數(shù)據(jù)應用的關系</p><p>  首先分享一下我們對“結構化”和“非結構化”的理解:</p><p>  狹義的理解:結構化就是指關系型數(shù)據(jù),其余都是非結構化數(shù)據(jù)。</p><p>  廣義的理解:結構化是相對于某一個程序來講的,例如視頻對于播放器來說顯然

26、是結構化的,但是對于文本編輯器來說就是非結構化的。</p><p>  事實上,即使是人腦,處理的也都是“廣義的”結構化數(shù)據(jù)。你可以想象,自己在注視一張照片時,腦海中形成的一定不是一個一個像素點,而是抽象過的一些屬性!</p><p>  按照我們上面的理解,無論是語音、影像還是其它“狹義”的非結構化數(shù)據(jù),只要我們有工具可以將這些數(shù)據(jù)轉化成我們關心數(shù)據(jù)結構,那就可以作為大數(shù)據(jù)應用的一個數(shù)據(jù)

27、源,后續(xù)由針對這類數(shù)據(jù)的的特定工具處理即可。這里舉一個例子:通常我們認為HTML網頁,例如電商的單品頁面,是非結構化的,因為我很難從中提取出結構化字段,例如商品名稱、價格等。但通過互聯(lián)網抓取系統(tǒng),我們可以將這些頁面轉化為結構化字段,那么后續(xù)按照結構化數(shù)據(jù)處理即可。語音、影響也是一樣,關鍵是我們期望從中提取什么信息,用什么工具提取,一旦提取成功,即可整合到大數(shù)據(jù)應用中。</p><p>  在百分點的實踐中,我們已

28、經完全整合了網頁、文本、JSON、XML等非結構化數(shù)據(jù),部分整合了圖像和語音數(shù)據(jù),這些內容都已經應用到了業(yè)務中。</p><p>  大數(shù)據(jù)平臺和現(xiàn)有數(shù)據(jù)倉庫的整合</p><p>  現(xiàn)有的數(shù)據(jù)倉庫完全可以和大數(shù)據(jù)平臺進行整合,現(xiàn)有數(shù)據(jù)倉庫可以作為大數(shù)據(jù)平臺的一個數(shù)據(jù)源和數(shù)據(jù)應用。</p><p>  對于金融銀行業(yè),往往已經實施有數(shù)據(jù)倉庫,這個時候如果盲目上大數(shù)

29、據(jù)平臺進行平臺替換往往容易造成數(shù)據(jù)混亂,所以我們提供的建議是混搭先行,逐步替換,先替換那些傳統(tǒng)手段不能解決的問題,再替換那些數(shù)據(jù)倉庫已經存在的應用?,F(xiàn)階段數(shù)據(jù)倉庫上下游生態(tài)圈豐富程度遠遠大于大數(shù)據(jù)生態(tài)圈,我們應該充分利用現(xiàn)有數(shù)據(jù)倉庫上下游豐富的解決方案充分發(fā)揮傳統(tǒng)數(shù)倉的價值,然后通過Hadoop等大數(shù)據(jù)產品來補充傳統(tǒng)數(shù)倉對于非結構化數(shù)據(jù)處理不足的缺陷。隨著大數(shù)據(jù)技術的發(fā)展,大數(shù)據(jù)產品(Hadoop等)各項功能和性能不斷完善,再逐步把數(shù)倉

30、之上已有業(yè)務應用遷移到大數(shù)據(jù)平臺。</p><p><b>  常見技術問題解答</b></p><p>  在Hadoop中導入Oracle的數(shù)據(jù)后,數(shù)據(jù)怎么備份?</p><p>  在數(shù)據(jù)導入到Hadoop中之后,數(shù)據(jù)的備份數(shù)就已經根據(jù)Hadoop的HDFS配置做了多備份(默認是3備份)。</p><p>  Or

31、acle關系數(shù)據(jù)庫的數(shù)據(jù)怎么部署Hadoop環(huán)境中使用?</p><p>  Oracle數(shù)據(jù)庫中的數(shù)據(jù)可以直接導入到Hadoop中,而后利用一些工具進行處理:</p><p>  Hadoop生態(tài)中有一系列的工具和組件可以在RDBMS和Hadoop間導入導出數(shù)據(jù),例如Sqoop,這些工具或多或少會有一些坑,需要使用者注意或者找有經驗的專家指導。</p><p> 

32、 數(shù)據(jù)處理方面,Hive、SparkSQL和Impala都是很好的SQL on Hadoop工具,它們可以滿足大部分的數(shù)據(jù)處理需求,但它們對SQL的支持不盡相同,目前也沒有任何組件能完美支持Oracle的PL/SQL。這些SQL組件無法滿足數(shù)據(jù)處理需求,一般的做法是利用其它工具,例如Pig、原生MapReduce等。</p><p>  HDFS數(shù)據(jù)怎么入Hbase</p><p>  H

33、DFS數(shù)據(jù)導入到HBase有三種方式:</p><p>  可以通過普通的MR程序,在Map或者Reduce里面通過HTable的對象來寫入到HBase。</p><p>  直接通過MR程序,用HBase的TableMapper和TableReducer方法,然后用TableMapReduceUtil類來執(zhí)行MR,和1類似。</p><p>  如果數(shù)據(jù)量大,建議

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論