文章來源:加米穀大數據
大數據本身是一個抽象的概念。從一般意義上講,大數據是指無法在有限時間內用常規軟件工具對其進行獲取、存儲、管理和處理的數據集合。
目前,業界對大數據還沒有一個統一的定義,但是大家普遍認為,大數據具備 Volume、Velocity、Variety 和 Value 四個特徵,簡稱“4V”,即數據體量巨大、數據速度快、數據類型繁多和數據價值密度低,如圖 1 所示。下面分別對每個特徵作簡要描述。

圖 1 大數據特徵
1)Volume:表示大數據的數據體量巨大。
數據集合的規模不斷擴大,已經從 GB 級增加到 TB 級再增加到 PB 級,近年來,數據量甚至開始以 EB 和 ZB 來計數。
例如,一箇中型城市的視頻監控信息一天就能達到幾十 TB 的數據量。百度首頁導航每天需要提供的數據超過 1-5PB,如果將這些數據打印出來,會超過 5000 億張 A4 紙。圖 2 展示了每分鐘互聯網產生的各類數據的量。

圖 2 互聯網每分鐘產生的數據
2)Velocity:表示大數據的數據產生、處理和分析的速度在持續加快。
加速的原因是數據創建的實時性特點,以及將流數據結合到業務流程和決策過程中的需求。數據處理速度快,處理模式已經開始從批處理轉向流處理。
業界對大數據的處理能力有一個稱謂——“ 1 秒定律”,也就是說,可以從各種類型的數據中快速獲得高價值的信息。大數據的快速處理能力充分體現出它與傳統的數據處理技術的本質區別。
3)Variety:表示大數據的數據類型繁多。
傳統 IT 產業產生和處理的數據類型較為單一,大部分是結構化數據。隨著傳感器、智能設備、社交網絡、物聯網、移動計算、在線廣告等新的渠道和技術不斷湧現,產生的數據類型無以計數。
現在的數據類型不再只是格式化數據,更多的是半結構化或者非結構化數據,如 XML、郵件、博客、即時消息、視頻、照片、點擊流、 日誌文件等。企業需要整合、存儲和分析來自複雜的傳統和非傳統信息源的數據,包括企業內部和外部的數據。
4)Value:表示大數據的數據價值密度低。
大數據由於體量不斷加大,單位數據的價值密 度在不斷降低,然而數據的整體價值在提高。以監控視頻為例,在一小時的視頻中,有用的數據可能僅僅只有一兩秒,但是卻會非常重要。現在許多專家已經將大數據等同於黃金和石油,這表示大數據當中蘊含了無限的商業價值。
根據中商產業研究院發佈的《2018-2023 年中國大數據產業市場前景及投資機會研究報告》顯示,2017 年中國大數據產業規模達到 4700 億元,同比增長 30%。隨著大數據在各行業的融合應用不斷深化,預計 2018 年中國大數據市場產值將突破 6000 億元達到 6200 億元。
通過對大數據進行處理,找出其中潛在的商業價值,將會產生巨大的商業利潤。