三分鐘帶你瞭解大數據與數據分析(上)

今天,我來給大家介紹一下大數據和大數據分析的基本知識,上篇我們來講大數據,下篇我們來講大數據分析。

首先,我們來了解一下大數據基本概念。

大數據是一個較為抽象的新興事物,因而目前尚未有明確統一的定義。不同的定義對大數據的特點有不同的偏向。對於大數據定義, 要達成共識非常困難。一種邏輯上的選擇是接受所有的大數據定義, 其中每種定義反映了大數據的特定方面。

IDC在對大數據作出的定義為[15]:大數據一般會涉及2種或2種以上數據形式。它要收集超過100TB的數據, 並且是高速、實時數據流;或者是從小數據開始, 但數據每年會增長60%以上。這個定義給出了量化標準, 但只強調數據量大, 種類多, 增長快等數據本身的特徵。

當前, 較為統一的認識是大數據有四個基本特徵:數據規模大 (Volume) , 數據種類多 (Variety) , 數據要求處理速度快 (Velocity) , 數據價值密度低 (Value) , 即所謂的四V特性。這些特性使得大數據區別於傳統的數據概念。大數據的概念與“海量數據”不同, 後者只強調數據的量, 而大數據不僅用來描述大量的數據, 還更進一步指出數據的複雜形式、數據的快速時間特性以及對數據的分析、處理等專業化處理, 最終獲得有價值信息的能力。

麥肯錫全球研究所給出的定義是:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力範圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特徵

在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》中大數據指不用隨機分析法(抽樣調查)這樣捷徑,而採用所有數據進行分析處理。大數據的5V特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。

大數據技術的戰略意義不在於掌握龐大的數據信息,而在於對這些含有意義的數據進行專業化處理。換而言之,如果把大數據比作一種產業,那麼這種產業實現盈利的關鍵,在於提高對數據的“加工能力”,通過“加工”實現數據的“增值”。

三分鐘帶你瞭解大數據與數據分析(上)


接下來,我們來了解一下大數據的特點。

(一)數據量大

大數據聚合在一起的數據量是非常大的, 根據IDC的定義至少要有超過100TB的可供分析的數據, 數據量大是大數據的基本屬性。

(二) 數據類型多樣

數據類型繁多, 複雜多變是大數據的重要特性。以往的數據儘管數量龐大,但通常是事先定義好的結構化數據。結構化數據是將事物向便於人類和計算機存儲、處理、查詢的方向抽象的結果,結構化在抽象的過程中, 忽略一些在特定的應用下可以不考慮的細節, 抽取了有用的信息。

(三) 數據處理速度快

要求數據的快速處理, 是大數據區別於傳統海量數據處理的重要特性之一。隨著各種傳感器和互聯網絡等信息獲取、傳播技術的飛速發展普及, 數據的產生、發佈越來越容易,產生數據的途徑增多, 個人甚至成為了數據產生的主體之一, 數據呈爆炸的形式快速增長, 新數據不斷湧現,新數據不斷湧現, 快速增長的數據量要求數據處理的速度也要相應的提升, 才能使得大量的數據得到有效的利用,否則不斷激增的數據不但不能為解決問題帶來優勢, 反而成了快速解決問題的負擔。同時, 數據不是靜止不動的, 而是在互聯網絡中不斷流動, 且通常這樣的數據的價值是隨著時間的推移而迅速降低的,如果數據尚未得到有效的處理, 就失去了價值, 大量的數據就沒有意義。對不斷激增的海量數據的實時處理要求, 是大數據與傳統海量數據處理技術的關鍵差別之一。

(四)數據價值密度低

數據價值密度低是大數據關注的非結構化數據的重要屬性。傳統的結構化數據, 依據特定的應用, 對事物進行了相應的抽象, 每一條數據都包含該應用需要考量的信息, 而大數據為了獲取事物的全部細節, 不對事物進行抽象、歸納等處理, 直接採用原始的數據, 保留了數據的原貌, 且通常不對數據進行採樣,直接採用全體數據, 由於減少了採樣和抽象, 呈現所有數據和全部細節信息, 可以分析更多的信息, 但也引入了大量沒有意義的信息,甚至是錯誤的信息, 因此相對於特定的應用, 大數據關注的非結構化數據的價值密度偏低。但是大數據的數據密度低是指相對於特定的應用, 有效的信息相對於數據整體是偏少的, 信息有效與否也是相對的, 對於某些應用是無效的信息對於另外一些應用則成為最關鍵的信息, 數據的價值也是相對的, 有時一條微不足道的細節數據可能造成巨大的影響。

(五)數據真實性

最後,我們來了解一下大數據的處理步驟

與傳統海量數據的處理流程相類似, 大數據的處理也包括獲取與特定的應用相關的有用數據, 並將數據聚合成便於存儲、分析、查詢的形式;分析數據的相關性, 得出相關屬性;採用合適的方式將數據分析的結果展示出來等過程。

三分鐘帶你瞭解大數據與數據分析(上)


1)採集

大數據的採集是指利用多個數據庫來接收發自客戶端的數據,並且用戶可以通過這些數據庫來進行簡單的查詢和處理工作。在大數據的採集過程中,其主要特點和挑戰是併發數高,因為同時有可能會有成千上萬的用戶來進行訪問和操作,所以需要在採集端部署大量數據庫才能支撐。並且如何在這些數據庫之間進行負載均衡和分片的確是需要深入的思考和設計。

2)導入/預處理

雖然採集端本身會有很多數據庫,但是如果要對這些海量數據進行有效的分析,還是應該將這些來自前端的數據導入到一個集中的大型分佈式數據庫,或者分佈式存儲集群,並且可以在導入基礎上做一些簡單的清洗和預處理工作。導入與預處理過程的特點和挑戰主要是導入的數據量大,每秒鐘的導入量經常會達到百兆,甚至千兆級別。

3)統計/分析

統計與分析主要利用分佈式數據庫,或者分佈式計算集群來對存儲於其內的海量數據進行普通的分析和分類彙總等,以滿足大多數常見的分析需求。統計與分析這部分的主要特點和挑戰是分析涉及的數據量大。

4)挖掘與前面統計和分析過程

不同的是,大數據挖掘一般沒有什麼預先設定好的主題,主要是在現有數據上面進行基於各種算法的計算,從而起到預測的效果,從而實現一些高級別數據分析的需求。該過程的特點和挑戰主要是用於挖掘的算法很複雜,並且計算涉及的數據量和計算量都很大,常用數據挖掘算法都以單線程為主。

5)可視化

將原始數據流以圖像形式表示,更直觀地展現數據本身的屬性以及特點,幫助人們理解數據,同時找出包含在海量數據中的規律或者信息。

三分鐘帶你瞭解大數據與數據分析(上)



分享到:


相關文章: