大數據的定義:海量的、複雜的數據集合

大數據的定義:海量的、複雜的數據集合

大數據(Big Data)是指“無法用現有的軟件工具提取、存儲、搜索、共享、分析和處理的海量的、複雜的數據集合。”業界通常用4個V(即Volume、Variety、Value、Velocity)來概括大數據的特徵。

  1. 數據體量巨大(Volume)。截至目前,人類生產的所有印刷材料的數據量是200PB,而歷史上全人類說過的所有的話的數據量大約是5EB(1EB=210PB)。

  2. 數據類型繁多(Variety)。相對於以往便於存儲的以文本為主的結構化數據,非結構化數據越來越多,包括網絡日誌、音頻、視頻、圖片、地理位置信息等,這些多類型的數據對數據的處理能力提出了更高要求。

  3. 價值密度低(Value)。價值密度的高低與數據總量的大小成反比。如何通過強大的機器算法更迅速地完成數據的價值“提純”成為目前大數據背景下亟待解決的難題。

  4. 處理速度快(Velocity)。大數據區分於傳統數據挖掘的最顯著特徵。根據IDC的“數字宇宙”的報告,預計到2020年,全球數據使用量將達到35.2ZB。

看看專家們怎麼說。

  • 舍恩伯格,大數據時代

不是隨機樣本,而是全體數據;不是精確性,而是混雜性;不是因果關係,而是相關關係。

  • 埃裡克·西格爾,大數據預測

大數據時代下的核心,預測分析已在商業和社會中得到廣泛應用。隨著越來越多的數據被記錄和整理,未來預測分析必定會成為所有領域的關鍵技術。

  • 城田真琴,大數據的衝擊

從數據的類別上看,“大數據”指的是無法使用傳統流程或工具處理或分析的信息。 它定義了那些超出正常處理範圍和大小、迫使用戶採用非傳統處理方法的數據集。

大數據的價值

瞭解了大數據的典型應用,理解了大數據的定義。這時相信在每個人的心中,關於大數據的價值都有了自己的答案。

2010年《Science》上刊登了一篇文章指出,雖然人們的出行的模式有很大不同,但我們大多數人同樣是可以預測的。這意味著我們能夠根據個體之前的行為軌跡預測他或者她未來行蹤的可能性,即93%的人類行為可預測。

大數定理告訴我們,在試驗不變的條件下,重複試驗多次,隨機事件的頻率近似於它概率。“有規律的隨機事件”在大量重複出現的條件下,往往呈現幾乎必然的統計特性。

舉個例子,我們向上拋一枚硬幣,硬幣落下後哪一面朝上本來是偶然的,但當我們上拋硬幣的次數足夠多後,達到上萬次甚至幾十萬幾百萬次以後,我們就會發現,硬幣每一面向上的次數約佔總次數的二分之一。偶然中包含著某種必然。

隨著計算機的處理能力的日益強大,你能獲得的數據量越大,你能挖掘到的價值就越多。

實驗的不斷反覆、大數據的日漸積累讓人類發現規律,預測未來不再是科幻電影裡的讀心術。

  • 如果銀行能及時地瞭解風險,我們的經濟將更加強大。

  • 如果政府能夠降低欺詐開支,我們的稅收將更加合理。

  • 如果醫院能夠更早發現疾病,我們的身體將更加健康。

  • 如果電信公司能夠降低成本,我們的話費將更加便宜。

  • 如果交通動態天氣能夠掌握,我們的出行將更加方便。

  • 如果商場能夠動態調整庫存,我們的商品將更加實惠。

最終,我們都將從大數據分析中獲益。

結束語。

Here's the thing about the future.關於未來有一個重要的特徵

Every time you look at it,每一次你看到了未來

it changes because you looked at it.它會跟著發生改變 因為你看到了它

And that changes everything else.然後其它事也跟著一起改變了

數據本身不產生價值,如何分析和利用大數據對業務產生幫助才是關鍵。

祝每一個DMer都挖掘到金礦和快樂:)

想要和大家一起學習交流大數據的小夥伴,可以關注小編,私信發 大數據。


分享到:


相關文章: