大數(shù)據(jù)時代下的數(shù)據(jù)挖掘-簡易_第1頁
已閱讀1頁,還剩32頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、,,,大數(shù)據(jù)時代 生活、工作與思維的大變革L(fēng)iving, working and thinking big changes,,,,,,大數(shù)據(jù)開啟了一次重大的時代轉(zhuǎn)型。就想望遠(yuǎn)鏡讓我們能夠感受宇宙,顯微鏡讓我們能夠觀測微生物一樣,大數(shù)據(jù)正在改變我們的生活以及理解世界的方式,成為新發(fā)明和新服務(wù)的源泉,而更多的改變正蓄勢待發(fā)……,一場生活、工作與思維的大變革,一場生活、工作與思維的大變革,大數(shù)據(jù),變革公共衛(wèi)生

2、大數(shù)據(jù),變革商業(yè)大數(shù)據(jù),變革思維大數(shù)據(jù),開啟重大的時代轉(zhuǎn)型預(yù)測,大數(shù)據(jù)的核心大數(shù)據(jù),大挑戰(zhàn),什么是大數(shù)據(jù),2009年,甲型H1N1流感在全球爆發(fā)傳播,為了發(fā)現(xiàn)和控制疫情,各國政府和衛(wèi)生相關(guān)部門付出了巨大努力,但得到的數(shù)據(jù)仍然滯后一兩周,而Google對人們的搜索的歷史記錄進(jìn)行處理,建立合理的數(shù)學(xué)模型后,得到的預(yù)測結(jié)果與官方的數(shù)據(jù)相關(guān)性高達(dá)97%,能夠立刻判斷出流感是從哪里傳播出來的,沒有一兩周的滯后。Google處理了5000

3、萬條歷史記錄、4.5億個不同的數(shù)學(xué)模型。,什么是大數(shù)據(jù),Farecast是一個對機(jī)票價格進(jìn)行預(yù)測的公司,幫助消費(fèi)者抓住最佳購買機(jī)票的時機(jī),使乘客節(jié)省很多錢。最初預(yù)測系統(tǒng)建立在41天之內(nèi)的12000個價格樣本基礎(chǔ)上,數(shù)據(jù)是從旅游網(wǎng)站上抓取的,如今已經(jīng)擁有超過2000億條飛行記錄。系統(tǒng)只推測機(jī)票的價格何時最便宜,不關(guān)心是什么原因?qū)е碌膬r格下降。,Farecast→Bing,大數(shù)據(jù)的特性,,,大數(shù)據(jù)的特性,,更關(guān)注相關(guān)性,,,,,,,

4、,主要用于預(yù)測,,,數(shù)據(jù)量巨大,,,,,實(shí)時性要求高,,,,01,大數(shù)據(jù)時代的思維變革,02,大數(shù)據(jù)時代的商業(yè)變革,03,大數(shù)據(jù)時代的管理變革,一、大數(shù)據(jù)時代的思維變革,一、大數(shù)據(jù)時代的思維變革—更多,“更多”——不是隨機(jī)樣本,而是全體數(shù)據(jù),當(dāng)數(shù)據(jù)處理技術(shù)已經(jīng)發(fā)生翻天覆地的變化時,在大數(shù)據(jù)時代進(jìn)行抽樣分析就像在汽車時代騎馬一樣。一切都改變了,我們需要的是所有的數(shù)據(jù),“樣本=總體”。,讓數(shù)據(jù)“發(fā)聲”小數(shù)據(jù)時代的隨機(jī)采樣,最少的數(shù)據(jù)

5、獲得最多的信息全數(shù)據(jù)模式,樣本=總體,一、大數(shù)據(jù)時代的思維變革—更雜,“更雜”——不是精確性,而是混雜性,執(zhí)迷于精確性是信息缺乏時代和模擬時代的產(chǎn)物。只有5%的數(shù)據(jù)是有框架且能適用于傳統(tǒng)數(shù)據(jù)庫的。如果不能接受混亂,剩下95%的非框架數(shù)據(jù)都無法被利用,只有接受不精確性,我們才能打開一扇從未涉足的世界的窗戶。,允許不精確大數(shù)據(jù)的簡單算法比小數(shù)據(jù)的復(fù)雜算法更有效紛繁的數(shù)據(jù)越多越好混雜性,不是竭力避免,而是標(biāo)準(zhǔn)途徑新的數(shù)據(jù)庫設(shè)計(jì)的誕生

6、,一、大數(shù)據(jù)時代的思維變革—更好,“更好”——不是因果關(guān)系,而是相關(guān)關(guān)系,知道“是什么”就夠了,沒必要知道“為什么”。在大數(shù)據(jù)時代,我們不必非得知道現(xiàn)象背后的原因,而是要讓數(shù)據(jù)自己“發(fā)聲”。,關(guān)聯(lián)物,預(yù)測的關(guān)鍵“是什么”,而不是“為什么”改變,從操作方式開始大數(shù)據(jù),改變?nèi)祟愄剿魇澜绲姆椒?二、大數(shù)據(jù)時代的商業(yè)變革,二、大數(shù)據(jù)時代的商業(yè)變革—數(shù)據(jù)化,“數(shù)據(jù)化”——一切皆可“量化”,大數(shù)據(jù)發(fā)展的核心動力來源于人類測量、記錄和分析世界的

7、渴望。信息技術(shù)變革隨處可見,但是如今信息技術(shù)變革的重點(diǎn)在“T”(技術(shù))上,而不是在“I”(信息)上?,F(xiàn)在,我們是時候把聚光燈打向“I”,開始關(guān)注信息本身了。,數(shù)據(jù),從最不可能的地方提取出來數(shù)據(jù)化,不是數(shù)字化量化一切,數(shù)據(jù)化的核心當(dāng)文字變成數(shù)據(jù)當(dāng)方位變成數(shù)據(jù)當(dāng)溝通成為數(shù)據(jù)一切事物的數(shù)據(jù)化,二、大數(shù)據(jù)時代的商業(yè)變革—價值,“價值”——“取之不盡,用之不竭”的數(shù)據(jù)創(chuàng)新,數(shù)據(jù)就像一個神奇的鉆石礦,當(dāng)它的首要價值被發(fā)掘后仍能不斷給予。

8、它的真實(shí)價值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而絕大部分都隱藏在表面之下。,數(shù)據(jù)創(chuàng)新1:數(shù)據(jù)的再利用數(shù)據(jù)創(chuàng)新2:重組數(shù)據(jù)數(shù)據(jù)創(chuàng)新3:可擴(kuò)展數(shù)據(jù)數(shù)據(jù)創(chuàng)新4:數(shù)據(jù)的折舊值數(shù)據(jù)創(chuàng)新5:數(shù)據(jù)廢氣數(shù)據(jù)創(chuàng)新6:開放數(shù)據(jù)給數(shù)據(jù)估值,二、大數(shù)據(jù)時代的商業(yè)變革—角色定位,“角色定位”——數(shù)據(jù)、技術(shù)與思維的三足鼎立,微軟以1.1億美元的價格購買了大數(shù)據(jù)公司Farecast,而兩年后谷歌則以7億美元的價格購買了給Farecast提

9、供數(shù)據(jù)的ITA Software公司。如今,我們正處在大數(shù)據(jù)時代的早期,思維和技術(shù)是最有價值的,但是最終大部分價值還是必須從數(shù)據(jù)本身來挖掘。,大數(shù)據(jù)價值的3大構(gòu)成大數(shù)據(jù)掌控公司大數(shù)據(jù)技術(shù)公司大數(shù)據(jù)思維公司和個人全新的數(shù)據(jù)中間商專家的消亡與數(shù)據(jù)科學(xué)家的崛起大數(shù)據(jù),決定企業(yè)的競爭力,三、大數(shù)據(jù)時代的管理變革,二、大數(shù)據(jù)時代的管理變革—風(fēng)險,“風(fēng)險”——讓數(shù)據(jù)主宰一切的隱憂,我們時刻都暴露在“第三只眼”之下:亞馬遜監(jiān)視著我們的購物

10、習(xí)慣,谷歌監(jiān)視著我們的網(wǎng)頁瀏覽習(xí)慣,而微博似乎什么都知道,不僅竊聽到了我們心中的“TA”,還有我們的社交關(guān)系網(wǎng)。,無處不在的“第三只眼”我們的隱私被二次利用了預(yù)測與懲罰,不是因?yàn)椤八觥?,而是因?yàn)椤皩⒆觥睌?shù)據(jù)獨(dú)裁掙脫大數(shù)據(jù)的困境,二、大數(shù)據(jù)時代的管理變革—掌控,“掌控”——責(zé)任與自由并舉的信息管理,當(dāng)世界開始邁向大數(shù)據(jù)時代時,社會也將經(jīng)歷類似的地殼運(yùn)動。在改變?nèi)祟惢镜纳钆c思考方式的同時,大數(shù)據(jù)早已在推動人類信息管理準(zhǔn)則上重新

11、定位。然而,不同于印刷革命,我們沒有幾個世紀(jì)的時間去適應(yīng),我們也許只有幾年時間。,管理變革1:個人隱私保護(hù),從個人許可到讓數(shù)據(jù)使用者承擔(dān)責(zé)任管理變革2:個人動因VS預(yù)測分析管理變革3:擊碎黑盒子,大數(shù)據(jù)程序員的崛起管理變革4:反數(shù)據(jù)壟斷大亨,結(jié) 語,正在發(fā)生的未來,大數(shù)據(jù)并不是一個充斥著算法和機(jī)器的冰冷世界,人類的作用依然無法被完全替代。大數(shù)據(jù)為我們提供的不是最終答案,只是參考答案,幫助是暫時的,而更好的方法和答案

12、還在不久的未來。,,,,大數(shù)據(jù)時代下的數(shù)據(jù)挖掘,,,,,,Contents,數(shù)據(jù)挖掘簡介,產(chǎn)生背景隨著數(shù)據(jù)庫技術(shù)的飛速發(fā)展,快速增長的海量數(shù)據(jù)收集、存放在大量數(shù)據(jù)儲存庫中理解他們已經(jīng)遠(yuǎn)遠(yuǎn)超出人的能力數(shù)據(jù)墳?zāi)埂y得再訪問的數(shù)據(jù)檔案數(shù)據(jù)豐富,但信息缺乏,如何利用大量數(shù)據(jù),數(shù)據(jù)挖掘定義,從大量的、不完全的、有噪聲的、隨機(jī)的數(shù)據(jù)中提取含在其中的、人們事先不知道的、有用的信息和知識的過程。功能的廣義觀點(diǎn):從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他

13、信息庫中的大量數(shù)據(jù)中發(fā)現(xiàn)知識的過程數(shù)據(jù)挖掘是一個新興、交叉學(xué)科領(lǐng)域,演變歷程,,,,,,原始文件處理,紙張,界面、查詢,硬盤,聯(lián)機(jī)分析處理,各個數(shù)據(jù)庫,各種媒體,數(shù)據(jù)挖掘受多學(xué)科的影響,數(shù)據(jù)挖掘步驟,,數(shù)據(jù)挖掘分類,,分類分析:找出描述和區(qū)分?jǐn)?shù)據(jù)類或概念的模型,以便能夠使模型預(yù)測未知的對象類常用方法:分類規(guī)則;決策樹;神經(jīng)網(wǎng)絡(luò);聚類分析:根據(jù)最大化類內(nèi)部的相似性、最小化類之間的相似性的原則進(jìn)行聚類或分組常用算法:K-MEAMS;

14、分層凝聚發(fā);估算最大值法關(guān)聯(lián)分析:發(fā)現(xiàn)數(shù)據(jù)庫中不同項(xiàng)之間的聯(lián)系常用方法:Apriori;MAQA;IUA;,,時間序列分析:描述行為隨時間變化的對象的規(guī)律或趨勢,并對其建模匹配方法:ARMA模型離群點(diǎn)分析:檢測和分析離群點(diǎn)離群點(diǎn):與數(shù)據(jù)的一般行為或模型不一致的點(diǎn),成功案例,啤酒加尿布地點(diǎn):沃爾瑪在美國加州的某連鎖店起因:每天銷售信息和顧客基本情況的數(shù)據(jù)庫中發(fā)現(xiàn)購買嬰兒尿布的顧客多是男性,而且往往也同時購買啤酒經(jīng)過:重

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論