版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、大數(shù)據(jù)技術(shù)及應(yīng)用,1,,2,,3,大數(shù)據(jù)應(yīng)用,,目 錄,大數(shù)據(jù)時代,大數(shù)據(jù)技術(shù),大數(shù)據(jù)時代,大數(shù)據(jù)時代,生活、工作與思維的大變革,Living, working and thinking big changes,一場生活、工作與思維的大變革,大數(shù)據(jù)開啟了一次重大的時代轉(zhuǎn)型。就想望遠鏡讓我們能夠感受宇宙,顯微鏡讓我們能夠觀測微生物一樣,大數(shù)據(jù)正在改變我們的生活以及理解世界的方式,成為新發(fā)明和新服務(wù)的源泉,而更多的改變正蓄勢待發(fā)……,大
2、數(shù)據(jù),變革生活大數(shù)據(jù),變革商業(yè)大數(shù)據(jù),變革思維大數(shù)據(jù),開啟重大的時代轉(zhuǎn)型預(yù)測是大數(shù)據(jù)的核心,第一個故事,百貨公司知道女孩懷孕第二個故事,搜索熱詞里的商機第三個故事,阿里知道誰需要貸款第四個故事,中移動挽留流失客戶第五個故事:每天,我們借助大數(shù)據(jù)完成微信上的互動第六個故事:大數(shù)據(jù)解救每一位“路盲”第七個故事:大數(shù)據(jù)協(xié)助大閘蟹養(yǎng)殖,大數(shù)據(jù)時代,大數(shù)據(jù)時代,國家電網(wǎng)大數(shù)據(jù)案例,基于PMS(電力生產(chǎn)系統(tǒng))系統(tǒng)數(shù)據(jù),構(gòu)建基于詞
3、云圖分析的文本信息挖掘及可視化實現(xiàn)對電網(wǎng)設(shè)備的家族缺陷信息的快速分析。,,7,設(shè)備類型,設(shè)備型號,斷路器,查詢,LW25-126,信息查詢:,,,,,,,大數(shù)據(jù)時代,大數(shù)據(jù)時代,西安公交集團大數(shù)據(jù)案例 公交司機駕駛行為直接影響到乘客的安全,如全國公交一樣,西安公交集團在每輛公交車上安裝了監(jiān)控設(shè)備,每日審核監(jiān)控視頻,對開車過程中出現(xiàn)違章行為的司機進行罰款處理,但由于公交車多,視頻數(shù)量極大,這給分析處理視頻的工作人
4、員帶來了很大的工作壓力,因此公交集團希望能夠建立一種快速視頻識別分析手段,以緩解當(dāng)前這種情況。,如何能讓20多名工作人員從每天10個小時的視頻審核工作中解脫出來???,大數(shù)據(jù)時代,違章類型:吸煙,違章時間:2014-01-16,違章視頻時間:10:57---10:58,違章車輛:陜A XXXXX,違章人:張XX,通過數(shù)據(jù)挖掘,使工作人員從每天長達數(shù)千小時視頻違章信息篩選工作中脫離出來,將原來需要數(shù)十小時的視頻審核工作,縮短為幾個小時完成
5、,大大提高了工作效率。且可以有效避免人為舞弊的情況。,,大數(shù)據(jù)時代,數(shù)據(jù):2014年10月納稅人A申報營業(yè)額為10萬。 信息: 2014年10月納稅人A申報營業(yè)額比去年同期減少了25 %。 知識:原因是納稅人A在華東地區(qū)的渠道銷售不利,或其產(chǎn)品B進入了衰退期,還是公司整體營銷活動落后,競爭者強力促銷導(dǎo)致?或是其它原因。針對這一問題公司應(yīng)對的策略是什么? 智慧:應(yīng)對的行動方案可能有多種,但(戰(zhàn)略)選擇哪個靠智慧。行動則又會產(chǎn)生新的交
6、易數(shù)據(jù)。,大數(shù)據(jù)時代,大數(shù)據(jù)時代的思維變革,“更多”-不是隨機樣本,而是全體數(shù)據(jù),當(dāng)數(shù)據(jù)處理技術(shù)已經(jīng)發(fā)生翻天覆地的變化時,在大數(shù)據(jù)時代進行抽樣分析就像在汽車時代騎馬一樣。一切都改變了,我們需要的是所有的數(shù)據(jù),“樣本=總體”。,讓數(shù)據(jù)“發(fā)聲”小數(shù)據(jù)時代的隨機采樣,最少的數(shù)據(jù)獲得最多的信息全數(shù)據(jù)模式,樣本=總體,大數(shù)據(jù)時代,“更雜”-滿足精確性,包容混雜性,執(zhí)迷于精確性是信息缺乏時代和模擬時代的產(chǎn)物。只有5%的數(shù)據(jù)是有框架且能適用于傳統(tǒng)
7、數(shù)據(jù)庫的。如果不能接受混亂,剩下95%的非框架數(shù)據(jù)都無法被利用,只有接受不精確性,我們才能打開一扇從未涉足的世界的窗戶。,允許不精確大數(shù)據(jù)的簡單算法比小數(shù)據(jù)的復(fù)雜算法更有效紛繁的數(shù)據(jù)越多越好混雜性,不是竭力避免,而是標準途徑新的數(shù)據(jù)庫設(shè)計的誕生,大數(shù)據(jù)時代的思維變革,大數(shù)據(jù)時代,“更好”-不是因果關(guān)系,而是相關(guān)關(guān)系,知道“是什么”就夠了,沒必要知道“為什么”。在大數(shù)據(jù)時代,我們不必非得知道現(xiàn)象背后的原因,而是要讓數(shù)據(jù)自己“發(fā)聲”
8、。,關(guān)聯(lián)物,預(yù)測的關(guān)鍵“是什么”,而不是“為什么”改變,從操作方式開始大數(shù)據(jù),改變?nèi)祟愄剿魇澜绲姆椒?大數(shù)據(jù)時代的思維變革,大數(shù)據(jù)時代,大數(shù)據(jù)時代的商業(yè)變革,“數(shù)據(jù)化”-一切皆可“量化”,大數(shù)據(jù)發(fā)展的核心動力來源于人類測量、記錄和分析世界的渴望。信息技術(shù)變革隨處可見,但是如今信息技術(shù)變革的重點在“T”(技術(shù))上,而不是在“I”(信息)上?,F(xiàn)在,我們是時候把聚光燈打向“I”,開始關(guān)注信息本身了。,數(shù)據(jù),從最不可能的地方提取出來數(shù)據(jù)
9、化,不是數(shù)字化量化一切,數(shù)據(jù)化的核心當(dāng)文字變成數(shù)據(jù)當(dāng)方位變成數(shù)據(jù)當(dāng)溝通成為數(shù)據(jù)一切事物的數(shù)據(jù)化,大數(shù)據(jù)時代,大數(shù)據(jù)時代的商業(yè)變革,“價值”-“取之不盡,用之不竭”的數(shù)據(jù)創(chuàng)新,數(shù)據(jù)就像一個神奇的鉆石礦,當(dāng)它的首要價值被發(fā)掘后仍能不斷給予。它的真實價值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而絕大部分都隱藏在表面之下。,數(shù)據(jù)創(chuàng)新1:數(shù)據(jù)的再利用數(shù)據(jù)創(chuàng)新2:重組數(shù)據(jù)數(shù)據(jù)創(chuàng)新3:可擴展數(shù)據(jù)數(shù)據(jù)創(chuàng)新4:數(shù)據(jù)的折舊值數(shù)據(jù)
10、創(chuàng)新5:數(shù)據(jù)廢氣數(shù)據(jù)創(chuàng)新6:開放數(shù)據(jù)給數(shù)據(jù)估值,大數(shù)據(jù)時代,大數(shù)據(jù)時代的商業(yè)變革,“角色定位”-數(shù)據(jù)、技術(shù)與思維的三足鼎立,微軟以1.1億美元的價格購買了大數(shù)據(jù)公司Farecast,而兩年后谷歌則以7億美元的價格購買了給Farecast提供數(shù)據(jù)的ITA Software公司。如今,我們正處在大數(shù)據(jù)時代的早期,思維和技術(shù)是最有價值的,但是最終大部分價值還是必須從數(shù)據(jù)本身來挖掘。,大數(shù)據(jù)價值的3大構(gòu)成大數(shù)據(jù)掌控公司大數(shù)據(jù)技術(shù)公司大
11、數(shù)據(jù)思維公司和個人全新的數(shù)據(jù)中間商專家的消亡與數(shù)據(jù)科學(xué)家的崛起大數(shù)據(jù),決定企業(yè)的競爭力,大數(shù)據(jù)時代,大數(shù)據(jù)時代的管理變革,“風(fēng)險”-讓數(shù)據(jù)主宰一切的隱憂,我們時刻都暴露在“第三只眼”之下:亞馬遜監(jiān)視著我們的購物習(xí)慣,谷歌監(jiān)視著我們的網(wǎng)頁瀏覽習(xí)慣,而微博似乎什么都知道,不僅竊聽到了我們心中的“TA”,還有我們的社交關(guān)系網(wǎng)。,無處不在的“第三只眼”我們的隱私被二次利用了預(yù)測與懲罰,不是因為“所做”,而是因為“將做”數(shù)據(jù)獨裁掙脫
12、大數(shù)據(jù)的困境,大數(shù)據(jù)時代,“掌控”-責(zé)任與自由并舉的信息管理,當(dāng)世界開始邁向大數(shù)據(jù)時代時,社會也將經(jīng)歷類似的地殼運動。在改變?nèi)祟惢镜纳钆c思考方式的同時,大數(shù)據(jù)早已在推動人類信息管理準則上重新定位。然而,不同于印刷革命,我們沒有幾個世紀的時間去適應(yīng),我們也許只有幾年時間。,管理變革1:隱私保護,從個人許可到讓數(shù)據(jù)使用者承擔(dān)責(zé)任管理變革2:個人動因VS預(yù)測分析管理變革3:打破黑盒子,大數(shù)據(jù)程序員的崛起管理變革4:企業(yè)和行業(yè)應(yīng)用突破
13、,大數(shù)據(jù)時代的管理變革,大數(shù)據(jù)時代,正在發(fā)生的未來,大數(shù)據(jù)并不是一個充斥著算法和機器的冰冷世界,人類的作用依然無法被完全替代。大數(shù)據(jù)為我們提供的不是最終答案,只是參考答案,幫助是暫時的,而更好的方法和答案還在不久的未來。,1,,2,,3,大數(shù)據(jù)應(yīng)用,,目 錄,大數(shù)據(jù)技術(shù),大數(shù)據(jù)時代,大數(shù)據(jù)技術(shù),,,認知,,,初識,,大數(shù)據(jù)算法與理論大數(shù)據(jù)系統(tǒng)與實踐NoSQLHadoop,,,大數(shù)據(jù)帶來的思維變化大數(shù)據(jù)帶來的價值鏈大數(shù)據(jù)發(fā)展
14、現(xiàn)狀與未來大數(shù)據(jù) vs 人類,,什么是大數(shù)據(jù)大數(shù)據(jù)的特性大數(shù)據(jù)與傳統(tǒng)技術(shù)的關(guān)系大數(shù)據(jù)與其他新興技術(shù)的關(guān)系,,深入,,大數(shù)據(jù)技術(shù),什么是大數(shù)據(jù),百度百科:大數(shù)據(jù)(big data),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內(nèi)達到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。維基百科:大數(shù)據(jù)是由數(shù)量巨大、結(jié)構(gòu)復(fù)雜、類型眾多數(shù)據(jù)構(gòu)成的數(shù)據(jù)集合,是基于云計算的數(shù)據(jù)處理與應(yīng)用模式,
15、通過數(shù)據(jù)的整合共享,交叉復(fù)用形成的智力資源和知識服務(wù)能力。學(xué)術(shù)觀點:大數(shù)據(jù)是由大量異構(gòu)的數(shù)據(jù)組成的數(shù)據(jù)集合,它是可以應(yīng)用合理的數(shù)學(xué)算法或工具從中找出有價值的信息,為人們帶來利益的一門新興學(xué)科。,大數(shù)據(jù)技術(shù),2009年,甲型H1N1流感在全球爆發(fā)傳播,為了發(fā)現(xiàn)和控制疫情,各國政府和衛(wèi)生相關(guān)部門付出了巨大努力,但得到的數(shù)據(jù)仍然滯后一兩周,而Google對人們的搜索的歷史記錄進行處理,建立合理的數(shù)學(xué)模型后,得到的預(yù)測結(jié)果與官方的數(shù)據(jù)相關(guān)性高
16、達97%,能夠立刻判斷出流感是從哪里傳播出來的,沒有一兩周的滯后。Google處理了5000萬條歷史記錄、4.5億個不同的數(shù)學(xué)模型。,什么是大數(shù)據(jù),大數(shù)據(jù)技術(shù),Farecast是一個對機票價格進行預(yù)測的公司,幫助消費者抓住最佳購買機票的時機,使乘客節(jié)省很多錢。最初預(yù)測系統(tǒng)建立在41天之內(nèi)的12000個價格樣本基礎(chǔ)上,數(shù)據(jù)是從旅游網(wǎng)站上抓取的,如今已經(jīng)擁有超過2000億條飛行記錄。系統(tǒng)只推測機票的價格何時最便宜,同時分析是什么原因?qū)?/p>
17、致的價格下降。,Farecast→Bing,什么是大數(shù)據(jù),大數(shù)據(jù)技術(shù),,,大數(shù)據(jù)的特性,,更關(guān)注相關(guān)性,,,,,,,,主要用于預(yù)測,,數(shù)據(jù)量巨大,,,,,實時性要求高,,,,大數(shù)據(jù)的特征,大數(shù)據(jù)技術(shù),大數(shù)據(jù)是在傳統(tǒng)數(shù)據(jù)庫學(xué)科的分支-數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的基礎(chǔ)上進一步發(fā)展起來的。但有兩點比較主要的不同:結(jié)構(gòu)化程度傳統(tǒng)數(shù)據(jù)庫保存的是結(jié)構(gòu)化或者半結(jié)構(gòu)化的數(shù)據(jù),以二維表或者標準XML文件的方式存儲數(shù)據(jù),由于結(jié)構(gòu)清晰,處理相對容易;
18、大數(shù)據(jù)面向的是一切計算機可以存儲的數(shù)據(jù)格式,包括互聯(lián)網(wǎng)上的各種網(wǎng)頁、圖片、音頻、視頻,包括辦公文檔、報表,包括人們在搜索引擎中輸入的關(guān)鍵詞、在社交網(wǎng)絡(luò)中的留言、喜好,也包括各種傳感器自動收集的監(jiān)控結(jié)果等等,顯然不同的格式處理起來更加困難。異常數(shù)據(jù)的處理傳統(tǒng)數(shù)據(jù)庫通常把異常數(shù)據(jù)先剔除,應(yīng)用在需要高精確度的領(lǐng)域,如銀行對每個賬戶的管理;大數(shù)據(jù)則允許異常數(shù)據(jù)存在,更多應(yīng)用在預(yù)測方面,找出大量數(shù)據(jù)中隱藏的關(guān)聯(lián)關(guān)系,少量異常數(shù)據(jù)不會對總體結(jié)
19、果產(chǎn)生影響。,大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)庫的區(qū)別,大數(shù)據(jù)技術(shù),大數(shù)據(jù)、物聯(lián)網(wǎng)、云計算、移動通信等都是近年涌現(xiàn)出來的新興概念,彼此之間不是孤立的,而是存在著內(nèi)部聯(lián)系。,大數(shù)據(jù)與其他新興技術(shù)的關(guān)系,大數(shù)據(jù)技術(shù),處理的對象往往是全部數(shù)據(jù),而不是部分數(shù)據(jù)的采樣采樣的不合理會導(dǎo)致預(yù)測結(jié)果的偏差,在大數(shù)據(jù)時代,依靠強大的數(shù)據(jù)處理能力,應(yīng)該去處理全部的數(shù)據(jù)。不再執(zhí)迷于精確性精確的、規(guī)范化的、可以被傳統(tǒng)數(shù)據(jù)庫處理的數(shù)據(jù)只占全部數(shù)據(jù)的5%,必須接受不精確性才
20、能處理另外95%的數(shù)據(jù)。錯誤的數(shù)據(jù)是客觀存在的,竭力避免它就失去了應(yīng)有的客觀性和公平性。大數(shù)據(jù)的簡單算法比小數(shù)據(jù)的復(fù)雜算法更有效。更加關(guān)注相關(guān)性,而不是因果性預(yù)測依靠的是相關(guān)性。很多情況下知道“是什么”即可,不必知道“為什么”。,大數(shù)據(jù)帶來思維方式的變化,大數(shù)據(jù)技術(shù),,,,數(shù)據(jù),數(shù)據(jù)的掌控者,擁有或者可以收集大量數(shù)據(jù)的公司。海量的數(shù)據(jù)就是財富,可以考慮自己分析或者賣數(shù)據(jù)給其他公司。,,,,技術(shù),技術(shù)供應(yīng)商或者分析公司。掌握了從
21、海量數(shù)據(jù)中分析出有用信息的技能或者工具,但本身不一定擁有數(shù)據(jù)。,,,,思維,有創(chuàng)新思維的人或者公司。他們對大數(shù)據(jù)敏感,有怎樣挖掘數(shù)據(jù)的新價值的獨特想法。,大數(shù)據(jù)的價值鏈,大數(shù)據(jù)技術(shù),大數(shù)據(jù) = 海量數(shù)據(jù) + 復(fù)雜類型的數(shù)據(jù),海量交易數(shù)據(jù):企業(yè)/機構(gòu)的經(jīng)營交易信息主要包括聯(lián)機交易數(shù)據(jù)和聯(lián)機分析數(shù)據(jù),是結(jié)構(gòu)化的、通過關(guān)系數(shù)據(jù)庫進行管理和訪問的靜態(tài)、歷史數(shù)據(jù)。通過這些數(shù)據(jù),我們能了解過去發(fā)生了什么。,大數(shù)據(jù)包括:交易數(shù)據(jù)和交互數(shù)據(jù)集在內(nèi)的
22、所有數(shù)據(jù)集,海量交互數(shù)據(jù):源于互聯(lián)網(wǎng)的社交媒體數(shù)據(jù)構(gòu)成(日志和非結(jié)構(gòu)化數(shù)據(jù));源于物聯(lián)網(wǎng)的設(shè)備和傳感器采集數(shù)據(jù)(日志和非結(jié)構(gòu)化數(shù)據(jù));源于GPS和地理定位映射數(shù)據(jù);醫(yī)療/監(jiān)控產(chǎn)生的海量圖像文件;科學(xué)計算/電子郵件等等。可以告訴我們未來可能會發(fā)生什么。,海量數(shù)據(jù)處理:大數(shù)據(jù)的涌現(xiàn)已經(jīng)催生出了設(shè)計用于數(shù)據(jù)密集型處理的架構(gòu)。例如在商用硬件群中運行的各種數(shù)據(jù)挖掘和分析系統(tǒng)。,大數(shù)據(jù)處理,大數(shù)據(jù)技術(shù),分析技術(shù):數(shù)據(jù)處理:自然語言、視
23、頻圖像處理技術(shù)抽樣統(tǒng)計分析:A/B test; top N排行榜;地域占比;文本情感分析數(shù)據(jù)挖掘:關(guān)聯(lián)規(guī)則分析;分類;聚類模型預(yù)測:預(yù)測模型;機器學(xué)習(xí);建模仿真大數(shù)據(jù)技術(shù):數(shù)據(jù)采集:ETL工具數(shù)據(jù)存取:關(guān)系數(shù)據(jù)庫;NoSQL;SQL等基礎(chǔ)架構(gòu)支持:云存儲;分布式文件系統(tǒng)等計算結(jié)果展現(xiàn):云計算;標簽云;關(guān)系圖等,多元數(shù)據(jù):結(jié)構(gòu)化數(shù)據(jù):海量數(shù)據(jù)的查詢、統(tǒng)計、更新等操作效率低非結(jié)構(gòu)化數(shù)據(jù)圖片、視頻、word、
24、pdf、ppt等文件存儲不利于檢索、查詢和存儲半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化存儲按照非結(jié)構(gòu)化存儲,存儲計算框架:Hadoop(MapReduce技術(shù))分布式文件系統(tǒng),大數(shù)據(jù)處理,大數(shù)據(jù)技術(shù),行業(yè)應(yīng)用逐漸趨向大數(shù)據(jù)處理2. 傳統(tǒng)的信息平臺無 法實現(xiàn)海量數(shù)據(jù)面臨存儲和 處理的瓶頸,大數(shù)據(jù)處理,大數(shù)據(jù)技術(shù),過去,現(xiàn)在,,,,,,,高性能計算,企業(yè),中小企業(yè),,,,,萬億字節(jié),千兆字節(jié),兆字節(jié),千萬億字節(jié),
25、萬億字節(jié),千兆字節(jié),面臨的新難題-如何處理大規(guī)模數(shù)據(jù),,,大數(shù)據(jù)技術(shù),采用完全無共享(Share-Nothing)系統(tǒng)架構(gòu),大數(shù)據(jù)技術(shù),,,,應(yīng)用程序通過分布式系統(tǒng)訪問數(shù)據(jù),,所有計算/存儲節(jié)點間自由交換數(shù)據(jù),,,每一個計算/存儲節(jié)點運行獨立的數(shù)據(jù)庫,查詢,海量并行處理結(jié)構(gòu)(MPP),大數(shù)據(jù)技術(shù),,,,,,,,,,,傳統(tǒng)并行運算架構(gòu),運算,存儲,傳統(tǒng)存儲架構(gòu),,,,,,,,,海量數(shù)據(jù)高性能計算與存儲,傳統(tǒng)存儲架構(gòu)共享存儲訪問模式;
26、計算與存儲分離;僅適合于計算相關(guān)數(shù)據(jù)量較小的高并發(fā)、計算密集型應(yīng)用,大數(shù)據(jù)環(huán)境下:存儲將成為訪問的性能瓶頸;海量文件的管理、訪問難題;傳統(tǒng)盤陣數(shù)據(jù)冗余保護機制不能滿足高性能要求。,大數(shù)據(jù)技術(shù),,,,,,,,,,,,,,,,,,,,,,計算存儲節(jié)點=并行式運算 + 分布式存儲,大數(shù)據(jù)并行計算架構(gòu),分布式文件系統(tǒng),計算與存儲一體,計算向數(shù)據(jù)集中,高效專用計算存儲節(jié)點完全解決應(yīng)用、并發(fā)、同步與一致性等問題處理和計算任務(wù)之
27、間實現(xiàn)無依賴,具有高系統(tǒng)延展性 (Scale-Out)分布式文件系統(tǒng),提供高效的海量數(shù)據(jù)存儲訪問與管理應(yīng)用:地質(zhì)勘探生命科學(xué)非線編媒資管理動畫渲染等高性能運算,,,,,,,,,,,,海量數(shù)據(jù)高性能計算與存儲,大數(shù)據(jù)技術(shù),,,,40GE Infiniband或者160GB萬兆,SureCloud分布數(shù)據(jù)庫(計算能力),,SureCloud分布式分布式存儲(存儲能力),設(shè)計超大規(guī)模數(shù)據(jù)的關(guān)聯(lián)計算使用節(jié)點高速緩沖區(qū)支
28、持連續(xù)復(fù)雜計算,大容量的海量數(shù)據(jù)存儲高性能IO全冗余平滑擴容,,,,,,,,數(shù)據(jù)服務(wù),,,獲取復(fù)雜的大數(shù)據(jù)處理結(jié)果,開放的應(yīng)用,開放的應(yīng)用,開放的應(yīng)用,直接數(shù)據(jù)提取,,大數(shù)據(jù)數(shù)據(jù)倉庫,大數(shù)據(jù)技術(shù),分布式數(shù)據(jù)庫,分布式物理節(jié)點,自動部署,節(jié)點監(jiān)控,資源監(jiān)管,動態(tài)調(diào)度,分布式文件系統(tǒng),QFS,HDFS,SDFS,NoSQL SDDB,Cacendra,大數(shù)據(jù)挖掘,應(yīng)用,Map/Reduce,統(tǒng)一智能管理,大數(shù)據(jù)接口,訪問權(quán)限管理,大數(shù)據(jù)
29、存儲,自動化部署配置,監(jiān)控與資源管理,,,大數(shù)據(jù)管理,大數(shù)據(jù)采集,輔助工具,,Hbase,Mango DB,,,,大數(shù)據(jù)計算應(yīng)用,醫(yī)療云,政務(wù)云,物聯(lián)網(wǎng),行業(yè)應(yīng)用,金融,電信,政府,大數(shù)據(jù)技術(shù),應(yīng)用1,應(yīng)用2,應(yīng)用N,大數(shù)據(jù)處理平臺,大數(shù)據(jù)技術(shù),泛互聯(lián)網(wǎng)數(shù)據(jù),機器數(shù)據(jù),行業(yè)內(nèi)容數(shù)據(jù),,焦點,,挖掘價值,,面向行業(yè),,關(guān)鍵技術(shù),,,,基于泛互聯(lián)網(wǎng)內(nèi)容的準實時輿情監(jiān)測和用戶行為分析,基于機器設(shè)備數(shù)據(jù)的生產(chǎn)狀態(tài)實時監(jiān)測和統(tǒng)計分析,基于行業(yè)內(nèi)容
30、數(shù)據(jù)的海量分布式存儲和查詢,各級/地政府;輿情監(jiān)測個人消費品制造/零售;精準營銷、電商、客服、反向創(chuàng)新金融/電信;精準營銷、客服,電力/電網(wǎng)/石油;設(shè)備、管線狀態(tài)和故障監(jiān)測自動化工業(yè)制造;設(shè)備狀態(tài)監(jiān)測以管控產(chǎn)品質(zhì)量復(fù)雜設(shè)備運營;狀態(tài)監(jiān)測,公安/海關(guān);人臉/指紋識別身份醫(yī)療/交通;影像/圖片提取價值數(shù)據(jù)衛(wèi)星/基因科研;復(fù)雜內(nèi)容計算稅務(wù)數(shù)據(jù)倉庫,新華社與媒體政府,公安電信客戶、基地中心,電力、電網(wǎng)中石油、中石化電信大
31、型制造業(yè),氣象局交通研究院Smart City銀行歷史庫,用戶行為分析NoSQL-分布式存儲和查詢查詢和搜索實時過濾和聚合業(yè)務(wù)分析SureSaveBDP,用戶行為分析NoSQL-分布式存儲和查詢實時過濾和聚合業(yè)務(wù)分析SureSaveBDP,NoSQL-分布式存儲和查詢SureSaveBDP,大數(shù)據(jù)技術(shù),,采集/挖掘,分析,,決策,導(dǎo)入的是數(shù)據(jù),取出的是價值,存儲,計算,訪問,,結(jié)構(gòu)化數(shù)據(jù)的導(dǎo)入,非結(jié)構(gòu)化數(shù)據(jù)的導(dǎo)
32、入,ETL,結(jié)構(gòu)展現(xiàn),分析決策模型,分析決策工具,分布存儲,數(shù)據(jù)挖掘,大數(shù)據(jù)技術(shù),分布式文件存儲,分布式結(jié)構(gòu)化數(shù)據(jù)存儲,數(shù)據(jù)處理技術(shù),分布式計算框架,,分布式索引,查詢,檢索,分析,挖掘,結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)存儲技術(shù),數(shù)據(jù)索引技術(shù),數(shù)據(jù)計算技術(shù),數(shù)據(jù)訪問技術(shù),數(shù)據(jù)智能技術(shù),可擴展的體系結(jié)構(gòu),數(shù)據(jù)采集技術(shù),大數(shù)據(jù)解決的不是單一的一個產(chǎn)品能夠解決的,它需要一整套的解決方案,它要融合很多傳統(tǒng)的、新的技術(shù),包含了很多不同的產(chǎn)品和功能模塊,大數(shù)據(jù)技術(shù)
33、,大數(shù)據(jù)系統(tǒng),大數(shù)據(jù)技術(shù),大數(shù)據(jù)存儲問題文件存儲千萬級的大文件存儲:如視頻億級的中等文件存儲:如文檔十億級的小文件存儲:如圖片縮略圖不同文件存儲對于系統(tǒng)需求不同結(jié)構(gòu)化數(shù)據(jù)億級的結(jié)構(gòu)化數(shù)據(jù)存儲查詢、統(tǒng)計、更新等操作效率低,大數(shù)據(jù)系統(tǒng)-存儲,大數(shù)據(jù)技術(shù),大數(shù)據(jù)存儲的最主要的論文CAP Theorem Consistency, Availability and Partition ToleranceGoogle的G
34、FS和BigTableGFS一種存儲海量大文件的存儲系統(tǒng)BigTable提出了一種Schemaless的表數(shù)據(jù)模型Amazon的DynamoDynamo的模型更簡單,它將數(shù)據(jù)按key進行hash存儲,K-V StoreGossip protocol (discovery and error detection)Distributed key-value data storeEventual consistency,大數(shù)據(jù)技
35、術(shù),C,A,P,RelationalKey-ValueColumn-OrientedDocument-Oriented,RDBMS(Oracle,MySQL),Aster Data Vertica,MongoDB,TerrastoreHyperTable,HbaseRedis,Berkeley DB,Scalaris,Dynamo,Voldemort,TokyoCabinetCassandraCouchDB,Riak,所
36、有的客戶端有統(tǒng)一的數(shù)據(jù)視圖,網(wǎng)絡(luò)出現(xiàn)分區(qū)時仍能夠正常運行,客戶端在任意時間都可以讀寫,大數(shù)據(jù)技術(shù),NoSQL NoSQL是Not Only SQL的縮寫,而不是Not SQL,它不一定遵循傳統(tǒng)數(shù)據(jù)庫的一些基本要求,比如說遵循SQL標準、ACID屬性、表結(jié)構(gòu)等等。,大數(shù)據(jù)技術(shù),NoSQL系統(tǒng)提高數(shù)據(jù)服務(wù)的交付能力,解決了數(shù)據(jù)集中與共享的問題,數(shù)據(jù)存儲的高可擴展性,即使數(shù)據(jù)量達到PB級別,存儲仍然可以在一定的成本范圍內(nèi)擁有
37、良好的可擴展性支持大量的并發(fā)執(zhí)行和高效的分析型處理,大數(shù)據(jù)技術(shù),大數(shù)據(jù)計算問題海量數(shù)據(jù)帶來計算快速性難以保證結(jié)構(gòu)變化導(dǎo)致計算模式變更大數(shù)據(jù)處理解決方案MapReduce技術(shù)流計算技術(shù):twitter的storm和yahoo的S4,大數(shù)據(jù)技術(shù),MapReduce是一種常用的分布式編程模型,用于大規(guī)模數(shù)據(jù)集(通常大于1TB)的并行運算。,Local FS,Local FS,,,,,HTTP GET,大數(shù)據(jù)技術(shù),On-line
38、MapReduce使用Map-Reduce的流水線執(zhí)行機制,進行Map和Reduce任務(wù)的動態(tài)調(diào)度,,,,,,,大數(shù)據(jù)技術(shù),大數(shù)據(jù)上的統(tǒng)計分析:Hive建立在Hadoop/MapReduce上的數(shù)據(jù)倉庫系統(tǒng)提供HQL語句實現(xiàn)對Hadoop上的數(shù)據(jù)查詢和分析機制,大數(shù)據(jù)技術(shù),統(tǒng)計分析套件,基于Hive及輔助索引技術(shù),實現(xiàn)快速的數(shù)據(jù)統(tǒng)計分析微博日志分析50億條/天統(tǒng)計登陸人數(shù)/5分鐘,大數(shù)據(jù)技術(shù),分析結(jié)果應(yīng)用,大數(shù)據(jù)技術(shù),大數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 大數(shù)據(jù)技術(shù)原理及應(yīng)用
- 大數(shù)據(jù)技術(shù)及應(yīng)用 ppt課件
- 大數(shù)據(jù)技術(shù)及應(yīng)用教學(xué)大綱
- 大數(shù)據(jù)重點技術(shù)及應(yīng)用題庫
- 大數(shù)據(jù)技術(shù)與應(yīng)用
- 大數(shù)據(jù)技術(shù)及其應(yīng)用
- 大數(shù)據(jù)技術(shù)及制造業(yè)應(yīng)用
- 大數(shù)據(jù)技術(shù)及應(yīng)用教學(xué)大綱
- 2017公需科目培訓(xùn)《大數(shù)據(jù)前沿技術(shù)及應(yīng)用》滿分答案
- 數(shù)據(jù)挖掘與大數(shù)據(jù)技術(shù)應(yīng)用
- 大數(shù)據(jù)技術(shù)與應(yīng)用教案
- 大數(shù)據(jù)技術(shù)與應(yīng)用教案
- 大數(shù)據(jù)技術(shù)與應(yīng)用專業(yè)
- 大數(shù)據(jù)技術(shù)原理與應(yīng)用
- 大數(shù)據(jù)大數(shù)據(jù)的實際應(yīng)用
- 大數(shù)據(jù)技術(shù)與應(yīng)用專業(yè)建設(shè)
- 大數(shù)據(jù)融合及應(yīng)用經(jīng)典
- 大數(shù)據(jù)技術(shù)與應(yīng)用專業(yè)建設(shè)
- 大數(shù)據(jù)技術(shù)與應(yīng)用專業(yè)建設(shè)
- 大數(shù)據(jù)時代下數(shù)據(jù)挖掘技術(shù)與應(yīng)用
評論
0/150
提交評論