近幾年"大數據"滿天飛,大數據到底是個什麼鬼啊?
既然是大數據,那一定很大咯,那我硬盤上幾個G的論文集算不算大數據?不算!
我公司服務器上幾百個G的ERP數據,算不算大數據?不算!
那到底什麼才叫大數據?
其實,我們通常說的"大數據"是指處理大數據的技術。包括兩個概念:大數據和大數據技術
一、什麼是大數據
大數據(big data),指無法在一定時間範圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。 大數據具有5V的特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。
關鍵詞:無法用常規軟件、大量、高速、多樣、低價值密度、真實性。下面一 一解釋。
無法用常規軟件:哪些是常規軟件?Excel、常規數據庫(如 SQL Server、Oracle、MySQL等)都是常規數據處理軟件。大數據這些軟件無法處理。
大量:即海量,就是數據量非常龐大,不是M、G為單位,可能是T,PB為單位。
高速:即,這些數據還在不斷、快速增長中,比如監控數據。
多樣:數據不是隻有一種,而是多種數據的集合,比如,既有影像數據,又有音頻數據,還有震動數據,需要關聯處理。
低價值密度:即這些數據單位容量價值含量很低,比如監測設備獲得的震動數據,從1M數據中,你能獲得的信息極少。而幾行Excel中的賬務數據,雖幾行,但包含的信息很多。
真實性:指,這堆數據是真實採集的第一手資料,未經任何人為修改的。
現在應該知道為什麼硬盤上幾個G的論文和公司服務器上的ERP數據不是大數據了嗎?因為首先幾個G和幾百個G雖然已經不小,但跟T比起來,還是不大。第二,這些數據價值密度較高,不符合"低價值密度"的特徵。
二、什麼是大數據技術
大數據技術,就是用非常規工具處理大數據的技術。常用的非常規工具有:Hadoop、HPCC、Storm、Apache Drill、RapidMiner等。
不管採用什麼工具,不管採用多麼複雜的處理模型,其實都遵循統計學原理。統計學原理就是從雜亂無章的數據中,經過統計,從中揭示出內在規律。就是一個把數據變成信息,信息揭示規律的過程。原來一堆不起眼的數據,最後變成了餅圖、柱狀圖、曲線、動畫。一旦揭示出規律,數據就產生了價值。
三、典型案例
啤酒與尿布
全球零售業巨頭沃爾瑪在對消費者購物行為分析時發現,男性顧客在購買嬰兒尿片時,常常會順便搭配幾瓶啤酒來犒勞自己,於是嘗試推出了將啤酒和尿布擺在一起的促銷手段。沒想到這個舉措居然使尿布和啤酒的銷量都大幅增加了。如今,"啤酒+尿布"的數據分析成果早已成了大數據技術應用的經典案例,被人津津樂道。
Google成功預測冬季流感
2009年,Google通過分析5000萬條美國人最頻繁檢索的詞彙,將之和美國疾病中心在2003年到2008年間季節性流感傳播時期的數據進行比較,並建立一個特定的數學模型。最終google成功預測了2009冬季流感的傳播甚至可以具體到特定的地區和州。
閱讀更多 新奇界J 的文章