2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、大數(shù)據(jù)時代的數(shù)據(jù)概念分析及其他一、概念:“大數(shù)據(jù)“是一個體量特別大,數(shù)據(jù)類別特別大的數(shù)據(jù)集,并且這樣的數(shù)據(jù)集無法用傳統(tǒng)數(shù)據(jù)庫工具對其內(nèi)容進行抓取、管理和處理。 “大數(shù)據(jù)“首先是指數(shù)據(jù)體量(volumes)?大,指代大型數(shù)據(jù)集,一般在 10TB?規(guī)模左右,但在實際應(yīng)用中, 很多企業(yè)用戶把多個數(shù)據(jù)集放在一起, 已經(jīng)形成了 PB 級的數(shù)據(jù)量; 其次是指數(shù)據(jù)類別(variety)大,數(shù)據(jù)來自多種數(shù)據(jù)源,數(shù)據(jù)種類和格式日漸豐富,已沖破了以前 所限

2、定的結(jié)構(gòu)化數(shù)據(jù)范疇,囊括了半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。接著是數(shù)據(jù)處理速度(Velocity)快,在數(shù)據(jù)量非常龐大的情況下,也能夠做到數(shù)據(jù)的實時處理。最后一個特點是指數(shù)據(jù)真實性(Veracity)高,隨著社交數(shù)據(jù)、企業(yè)內(nèi)容、交易與應(yīng)用數(shù)據(jù)等新數(shù)據(jù)源的興趣,傳統(tǒng)數(shù)據(jù)源的局限被打破,企業(yè)愈發(fā)需要有效的信息 之力以確保其真實性及安全性。百度概念:大數(shù)據(jù)(bigdata), 或稱巨量資料, 指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合

3、理時間內(nèi)達到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。 大數(shù)據(jù)的 4V 特點: Volume、 Velocity、 Variety、 Veracity。研究機構(gòu) Gartner 概念:“大數(shù)據(jù)“是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。從數(shù)據(jù)的類別上看,“大數(shù)據(jù)“指的是無法使用傳統(tǒng)流程或工具處理或分析的信息。它定義了那些超出正常處理范圍和大 小、迫使用戶采用非傳

4、統(tǒng)處理方法的數(shù)據(jù)集。 亞馬遜網(wǎng)絡(luò)服務(wù)(AWS) 、大數(shù)據(jù)科學家 JohnRauser 提到一個簡單的定義: 大數(shù)據(jù)就是任何超過了一臺計算機處理能力的龐大數(shù)據(jù)量。 研發(fā)小組對大數(shù)據(jù)的定義:“大數(shù)據(jù)是最大的宣傳技術(shù)、是最時髦的技術(shù),當這種現(xiàn)象出現(xiàn)時,定義就變得很混亂。“ Kelly 說:“大數(shù)據(jù)是可能 不包含所有的信息,但我覺得大部分是正確的。對大數(shù)據(jù)的一部分認知在于,它是如此之大,分析它需要多個工作負載,這是AWS 的定義。當你的技術(shù)達到

5、極限時,也就是數(shù)據(jù)的極限“。 大數(shù)據(jù)不是關(guān)于如何定義,最重要的是如何使用。最大 的挑戰(zhàn)在于哪些技術(shù)能更好的使用數(shù)據(jù)以及大數(shù)據(jù)的應(yīng)用情況如何。這與傳統(tǒng)的 數(shù)據(jù)庫相比,開源的大數(shù)據(jù)分析工具的如 Hadoop 的崛起,這些非結(jié)構(gòu)化的數(shù)據(jù)服務(wù)的價值在哪里。二、大數(shù)據(jù)分析從所周知,大數(shù)據(jù)已經(jīng)不簡簡單單是數(shù)據(jù)大的事實了,而最重要的現(xiàn)實是對大數(shù)據(jù)進行分析,只有通過分析才能獲取很多智能的、深入的、有價值的信息。那么越來越多的應(yīng)用涉及到大數(shù)據(jù),而這些大數(shù)

6、據(jù)的屬性,包括數(shù)量,速度,多 樣性等等都是呈現(xiàn)了大數(shù)據(jù)不斷增長的復(fù)雜性,所以大數(shù)據(jù)的分析方法在大數(shù)據(jù) 領(lǐng)域就顯得尤為重要,可以說是決定最終信息是否有價值的決定性因素?;谌绱说恼J識,大數(shù)據(jù)分析普遍存在的方法理論有哪些呢?大數(shù)據(jù)分析的五個基本方面:1、 可視化分析 Analytic Visualizations 大數(shù)據(jù)分析的使用者有大數(shù)據(jù)分析專家,同時還有普通用戶,但是他們二者對應(yīng)分析、多元對應(yīng)分析(最優(yōu)尺度分析) 、bootstrap

7、技術(shù)等等。數(shù)據(jù)挖掘: 數(shù)據(jù)挖掘:分類 (Classification) 、 估計 (Estimation) 、 預(yù)測 (Prediction) 、相關(guān)性分組或關(guān)聯(lián)規(guī)則 (Affinity grouping or association rules) 、 聚類 (Clustering) 、描述和可視化、Description and Visualization ) 、復(fù)雜數(shù)據(jù)類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)模型預(yù)測

8、: 模型預(yù)測:預(yù)測模型、機器學習、建模仿真。結(jié)果呈現(xiàn): 結(jié)果呈現(xiàn):云計算、標簽云、關(guān)系圖等。四、大數(shù)據(jù)特點 四、大數(shù)據(jù)特點要理解大數(shù)據(jù)這一概念,首先要從“大“入手,“大“是指數(shù)據(jù)規(guī)模,大數(shù)據(jù)一般指在 10TB(1TB=1024GB)規(guī)模以上的數(shù)據(jù)量。 大數(shù)據(jù)同過去的海量數(shù)據(jù)有所區(qū)別,其基本特征可以用 4 個 V 來總結(jié)(Vol-ume、Variety、Value 和 Veloc-ity),即體量大、多樣性、價值密度低、速度快。第一, 第

9、一,數(shù)據(jù)體量巨大。從 TB 級別,躍升到 PB 級別。 第二, 第二, 數(shù)據(jù)類型繁多, 如前文提到的網(wǎng)絡(luò)日志、 視頻、 圖片、 地理位置信息,等等。第三, 第三,價值密度低。以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒。第四, 第四,處理速度快。1 秒定律。最后這一點也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機、平板電腦、 PC 以及遍布地球各個角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源

10、或者承載的方式。大數(shù)據(jù)技術(shù)是指從各種各樣類型的巨量數(shù)據(jù)中, 快速獲得有價值信息的技術(shù)。解決大數(shù)據(jù)問題的核心是大數(shù)據(jù)技術(shù)。目前所說的 “大數(shù)據(jù)“不僅指數(shù)據(jù)本身的規(guī)模,也包括采集數(shù)據(jù)的工具、平臺和數(shù)據(jù)分析系統(tǒng)。大數(shù)據(jù)研發(fā)目的是發(fā)展大數(shù)據(jù)技術(shù)并將其應(yīng)用到相關(guān)領(lǐng)域,通過解決巨量數(shù)據(jù)處理問題促進其突破性發(fā)展。 因此,大數(shù)據(jù)時代帶來的挑戰(zhàn)不僅體現(xiàn)在如何處理巨量數(shù)據(jù)從中獲取有價值的信息,也體現(xiàn)在如何加強大數(shù)據(jù)技術(shù)研發(fā),搶占時代發(fā)展的前沿。五、當下我國

11、大數(shù)據(jù)研發(fā)建設(shè)應(yīng)在以下四個方面著力 五、當下我國大數(shù)據(jù)研發(fā)建設(shè)應(yīng)在以下四個方面著力一是建立一套運行機制。大數(shù)據(jù)建設(shè)是一項有序的、動態(tài)的、可持續(xù)發(fā)展的系統(tǒng)工程,必須建立良好的運行機制,以促進建設(shè)過程中各個環(huán)節(jié)的正規(guī)有序,實現(xiàn)統(tǒng)合,搞好頂層設(shè)計。二是規(guī)范一套建設(shè)標準。沒有標準就沒有系統(tǒng)。應(yīng)建立面向不同主題、覆蓋各個領(lǐng)域、不斷動態(tài)更新的大數(shù)據(jù)建設(shè)標準,為實現(xiàn)各級各類信息系統(tǒng)的網(wǎng)絡(luò)互連、信息互通、資源共享奠定基礎(chǔ)。三是搭建一個共享平臺。數(shù)據(jù)只有

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論