淺談“大數據”現狀及發展

大數據無疑是近兩年最時髦的詞彙了。不管是雲計算、社交網絡,還是物聯網、移動互聯網和智慧城市,都要與大數據扯上關係。大數據已經成為有特別含義的專用詞彙,不在單指數據體量大。那麼,什麼是大數據,大數據發展的現狀,大數據能給我們帶來什麼?我想從從下面幾個方面闡述一下我的觀點。

淺談“大數據”現狀及發展
淺談“大數據”現狀及發展

一、 大數據的背景和定義

大數據的背景

隨著網絡和信息技術的不斷普及,人類產生的數據量正在呈指數級增長。大約每兩年翻一番,根據監測,這個速度在2020 年之前會繼續保持下去。這意味著人類在最近兩年產生的數據量相當於之前產生的全部數據量。

資料顯示,2011年,全球數據規模為1.8ZB,可以填滿575億個32GB的iPad,這些iPad可以在中國修建兩座長城。到2020年,全球數據將達到40ZB,如果把它們全部存入藍光光盤,這些光盤和424艘尼米茲號航母重量相當。我國,2010年新存儲的數據為250PB,2012年中國的數據存儲量達到364EB,約為日本的60%,北美的7%。

淘寶網站每天有超過數千萬筆交易,單日數據產生量超過50TB(1TB等於1000GB),存儲量40PB(1PB等於1000TB)。百度公司目前數據總量接近1000PB,存儲網頁數量接近1萬億頁,每天大約要處理60億次搜索請求,幾十PB數據。

大量新數據源的出現則導致了非結構化、半結構化數據爆發式的增長。信息數據的單位由TB-PB-EB-ZB的級別。這些由我們創造的信息背後產生的這些數據早已經遠遠超越了目前人力所能處理的範疇。如何管理和使用這些數據,逐漸成為一個新的領域,於是大數據的概念應運而生。

大數據的定義

大數據一詞,最早出現於20世紀90年代,當時的數據倉庫之父Bill Inmon,經常提及Big Data。

2011年5 月,在“雲計算相遇大數據” 為主題的EMC World 2011 會議中,EMC 拋出了Big Data概念。所以,很多人認為,2011年是大數據元年。

百度搜索的定義為:大數據是一個體量特別大,數據類別特別大的數據集,並且這樣的數據集無法用傳統數據庫工具對其內容進行抓取、管理和處理。大數據有4V特點:數據體量(Volume)大、數據類別(Variety)大、數據處理速度(Velocity)快、數據真實性(Veracity)高。

國家信息中心專家委員會主任寧家駿表示:大數據是指無法在一定時間內使用傳統數據庫軟件工具對其內容進行抓取、管理和處理的數據集。大數據不僅僅是大,還有它的複雜性和沙裡淘金的重要性。

淺談“大數據”現狀及發展

二、 大數據的特點

1、數據體量大,現在大型數據集,數據量一般在10TB規模左右,更多的認為應該達到PB規模。

2、數據類別大,數據來自多種數據源,數據種類和格式日漸豐富,已衝破了以前所限定的結構化數據範疇,囊括了半結構化和非結構化數據。如前文提到的網絡日誌、視頻、圖片、地理位臵信息,等等。

3、數據處理速度快,在數據量非常龐大的情況下,也能夠做到數據的實時處理。

4、數據價值密度低,價值密度的高低與數據總量的大小成反比。以視頻為例,一部1小時的視頻,在連續不間斷的監控中,有用數據可能僅有一二秒。如何通過強大的機器算法更迅速地完成數據的價值“提純”成為目前大數據背景下亟待解決的難題。

大數據的應用範圍非常廣。有機構預測,“大數據”的發展,將使零售業淨利潤增長60%以上,製造業的產品開發、組裝成本將下降50%以上。

在製造行業,企業通過對網上數據分析瞭解客戶需求和掌握市場動向,並對大數據進行分析後,就可以有效實現對採購和合理庫存量的管理,大大減少因盲目進貨而導致銷售損失。

在商業上,國外一些超市利用對手機的定位和購物推車獲得商場內顧客在各處停留時間,利用視頻監視圖像軟件分析顧客購物行為,優化商場佈局和貨架排列。

在政府決策上,分析幾十年來的天氣數據,將各地降雨、氣溫、土壤狀況和歷年農作物產量做成精密圖表,就可以預測農產品生產趨勢,政府的激勵措施、作物存儲量和農業服務也可以隨之確定。

三、 大數據的發展現狀

大數據的快速發展,使它成為IT領域的又一大新興產業。據中央財經大學中國經濟管理研究院博士張永力估算,國外大數據行業約有1000億美元的市場,而且每年都以10%的速度在增長,增速是軟件行業的兩倍。我國2012年大數據市場規模大約4.7億元,2013年增速將達到138%,達到11.2億元,產業發展潛力非常巨大。

(1)政府積極介入推動

2009年,聯合國啟動“全球脈動計劃”,借大數據推動落後地區發展。2012年1月,世界經濟論壇年會把“大數據、大影響”作為重要議題。美國從開放政府數據、開展關鍵技術研究和推動大數據應用三方面佈局大數據產業。美國在開放政府上非常積極,通過Data.gov開放37萬個數據集,並開放網站的API和源代碼,提供上千個數據應用。除了推動本國政府數據開放,美國倡導發起全球開放政府數據運動,已有41個國家響應。美國政府還投資兩億美元促進大數據核心技術研究和應用,把大數據放在與集成電路、互聯網同等重要的位臵,從國家層面推進。

(2)資本市場也對大數據鍾愛有加

2012年4月,大數據分析公司Splunk高調宣傳大數據,引發投資者關注。12月初,為企業市場提供Hadoop解決方案的創業公司Cloudera獲得6500萬美元融資,估值約為7億美元。近期,高盛聯席主席斯科特.斯坦福說:“投資大數據及其運用回報率最高”。大數據領域的企業併購熱度也在上升,單筆平均併購金額方面,大數據超過雲計算位居IT領域榜首,在總併購額上也位居第二。

(3)人才需求巨大

據一家國際諮詢公司,蓋特納諮詢公司預測大數據將為全球帶來440萬個IT新崗位和上千萬個非IT崗位。麥肯錫公司預測美國到2018年需要深度數據分析人才44萬—49萬,缺口14萬—19萬人;需要既熟悉本單位需求又瞭解大數據技術與應用的管理者150萬,這方面的人才缺口更大。中國是人才大國,但能理解與應用大數據的創新人才更是稀缺資源。

(4)國內情況

大數據的火爆,也帶動了國內學術界、產業界和政府對大數據的熱情。2011年以來,中國計算機學會、中國通信學會先後成立了大數據委員會,研究大數據中的科學與工程問題,科技部的《中國雲科技發展“十二五”專項規劃》和工信部的《物聯網“十二五”發展規劃》等都把大數據技術作為一項重點予以支持。其中工信部發布的物聯網“十二五”規劃上,把信息處理技術作為4項關鍵技術創新工程之一被提出來,其中包括了海量數據存儲、數據挖掘、圖像視頻智能分析,這都是大數據的重要組成部分。而另外3項關鍵技術創新工程,包括信息感知技術、信息傳輸技術、信息安全技術,也都與“大數據”密切相關。

大數據的熱潮觸發了一場思想啟蒙運動,使得“大數據是資產,不是包袱”、“要拿數據說話”等觀念逐步深入人心,改變了以往不重視數據積累,不相信數據分析等認識。有了這種思維模式的改變,大數據的應用就有了希望。

g


分享到:


相關文章: