大數據:大數據的實際應用、發展趨勢和麵臨的問題

前言:

我們生活在一個高速發展的時代,科技發達、信息快速流通,人們之間的交流越來越密切、聯繫越來越緊密的社會,而大數據就是順應這個高科技時代的產物。今天我們一起來聊一聊“大數據”這個熱門詞彙,探討一下大數據的實際應用、發展趨勢和麵臨的問題。

大數據:大數據的實際應用、發展趨勢和麵臨的問題

一、背景 - 政府推動大數據發展歷程

  • 2015年9月,《促進大數據發展行動綱要》(以下簡稱《綱要》),系統部署大數據發展工作。《綱要》明確,推動大數據發展和應用,在未來5-10年打造精準治理、多方協作的社會治理新模式,建立運行平穩、安全高效的經濟運行新機制,構建以人為本、惠及全民的民生服務新體系,開啟大眾創業、萬眾創新的創新驅動新格局,培育高端智能、新興繁榮的產業發展新生態。

  • 2016年3月17日,《中華人民共和國國民經濟和社會發展第十三個五年規劃綱要》發佈,其中第二十七章“實施國家大數據戰略”提出:把大數據作為基礎性戰略資源,全面實施促進大數據發展行動,加快推動數據資源共享開放和開發應用,助力產業轉型升級和社會治理創新;具體包括:加快政府數據開放共享、促進大數據產業健康發展。

二、大數據概念

要知道,大數據不是我們單純字面上的理解為數據大,最重要的是體現在實際運用時候對大數據進行分析,只有通過數據分析才能獲取大量智能的、深入的、有價值的信息。

大數據(big data),指無法在一定時間範圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。

三、大數據的特點

大數據:大數據的實際應用、發展趨勢和麵臨的問題

左:肯尼斯·庫克耶 右:維克托·邁爾-舍恩伯格

在維克托·邁爾-舍恩伯格(Viktor Mayer-Schönberger)及肯尼斯·庫克耶(Kenneth Cukier)編寫的《大數據時代》中,大數據指不用隨機分析法(抽樣調查)這樣捷徑,而採用所有數據進行分析處理。

大數據:大數據的實際應用、發展趨勢和麵臨的問題

大數據5V特點

大數據的5V特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。在此基礎上,專家學者們還總結出複雜性(Complexity)、價值(value)。

1. 容量(Volume):數據的大小決定所考慮的數據的價值和潛在的信息;

2. 種類(Variety):數據類型的多樣性;

3. 速度(Velocity):指獲得數據的速度;

4. 可變性(Variability):妨礙了處理和有效地管理數據的過程;

5. 真實性(Veracity):數據的質量;

6. 複雜性(Complexity):數據量巨大,來源多渠道;

7. 價值(Value):合理運用大數據,以低成本創造高價值。

大數據:大數據的實際應用、發展趨勢和麵臨的問題

大數據的計算

四、大數據計算:按照進率1024(2的十次方)計算

大數據需要特殊的技術,以有效地處理大量的容忍經過時間內的數據。適用於大數據的技術,包括大規模並行處理(MPP)數據庫、數據挖掘、分佈式文件系統、分佈式數據庫、雲計算平臺、互聯網和可擴展的存儲系統。

最小的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。

它們按照進率1024(2的十次方)來計算:

  • 1 Byte =8 bit

  • 1 KB = 1,024 Bytes = 8192 bit

  • 1 MB = 1,024 KB = 1,048,576 Bytes

  • 1 GB = 1,024 MB = 1,048,576 KB

  • 1 TB = 1,024 GB = 1,048,576 MB

  • 1 PB = 1,024 TB = 1,048,576 GB

  • 1 EB = 1,024 PB = 1,048,576 TB

  • 1 ZB = 1,024 EB = 1,048,576 PB

  • 1 YB = 1,024 ZB = 1,048,576 EB

  • 1 BB = 1,024 YB = 1,048,576 ZB

  • 1 NB = 1,024 BB = 1,048,576 YB

  • 1 DB = 1,024 NB = 1,048,576 BB

全稱:

  • 1 Bit(比特) =Binary Digit

  • 8Bits = 1 Byte(字節)

  • 1,000 Bytes = 1 Kilobyte

  • 1,000Kilobytes = 1 Megabyte

  • 1,000 Megabytes = 1 Gigabyte

  • 1,000 Gigabytes = 1Terabyte

  • 1,000 Terabytes = 1 Petabyte

  • 1,000 Petabytes = 1 Exabyte

  • 1,000Exabytes = 1 Zettabyte

  • 1,000 Zettabytes = 1 Yottabyte

  • 1,000 Yottabytes = 1Brontobyte

  • 1,000 Brontobytes = 1 Geopbyte

大數據:大數據的實際應用、發展趨勢和麵臨的問題

大數據分析

五、大數據分析

越來越多的應用涉及到大數據,這些大數據的屬性,包括數量,速度,多樣性等等都是呈現了大數據不斷增長的複雜性,所以,大數據的分析方法在大數據領域就顯得尤為重要,可以說是決定最終信息是否有價值的決定性因素。基於此,大數據分析方法理論有哪些呢?

1、大數據分析的五個基本方面

(1)、預測性分析能力(PredictiveAnalyticCapabilities)

數據挖掘可以讓數據分析員更好的理解數據,而預測性分析可以讓分析員根據可視化分析和數據挖掘的結果做出一些預測性的判斷。

(2)、數據質量和數據管理(DataQualityandMasterDataManagement)

數據質量和數據管理是一些管理方面的最佳實踐。通過標準化的流程和工具對數據進行處理可以保證一個預先定義好的高質量的分析結果。

(3)、可視化分析(AnalyticVisualizations)

不管是對數據分析專家還是普通用戶,數據可視化是數據分析工具最基本的要求。可視化可以直觀的展示數據,讓數據自己說話,讓觀眾聽到結果。

(4)、語義引擎(SemanticEngines)

我們知道由於非結構化數據的多樣性等原因,為數據分析帶來了新的挑戰,我們需要一系列的工具去解析、提取、分析數據。語義引擎需要被設計成能夠從“文檔”中智能提取信息。

(5)、數據挖掘算法(DataMiningAlgorithms)

可視化是給人看的,數據挖掘就是給機器看的。集群、分割、孤立點分析還有其他的算法讓我們深入數據內部,挖掘價值。這些算法不僅要處理大數據的量,也要處理大數據的速度。

假如大數據真的是下一個重要的技術革新的話,我們最好把精力關注在大數據能給我們帶來的好處,而不僅僅是挑戰。

2、大數據分析我們應該關注哪兩個內容呢?

大數據:大數據的實際應用、發展趨勢和麵臨的問題

數據建模結構圖

(1)、數據建模

數據建模指的是對現實世界各類數據的抽象組織,確定數據庫需管轄的範圍、數據的組織形式等直至轉化成現實的數據庫。 將經過系統分析後抽象出來的概念模型轉化為物理模型後,在visio或erwin等工具建立數據庫實體以及各實體之間關係的過程(實體一般是表)。

數據建模是一種用於定義和分析數據的要求和其需要的相應支持的信息系統的過程。因此,數據建模的過程中,涉及到的專業數據建模工作,與企業的利益和用戶的信息系統密切相關。一般分為三種類型:

①、使用計算機描述一個系統的行為。

②、使用計算機以數學方法描述物體和它們之間的空間關係。

③、應用程序和數據建模是為應用程序確定、記錄和實現數據和進程要求的過程。

大數據:大數據的實際應用、發展趨勢和麵臨的問題

KPI指標魚骨圖

(2)、KPI 指標

KPI指標是指關鍵業績指標,是企業績效考核的方法之一,其特點是考核指標圍繞關鍵成果領域進行選取,MBA、CEO12篇及EMBA等常見企業管理教育均對關鍵業績指標(KPI)的應用及其特點有所介紹。

最常見的關鍵業績指標有三種:一是效益類指標,如資產盈利效率、盈利水平等;二是營運類指標,如部門管理費用控制、市場份額等;三是組織類指標,如滿意度水平、服務效率等。

(2)數據建模和KPI指標對大數據分析的影響

前者是傳統數據倉庫下的數據建模,在該數據模型下需要支持上面各種分析方法和分析策略;後者是根據業務目標和業務需求建立的KPI指標體系,對應指標體系的分析模型和分析方法。解決這兩個問題可以基本解決大數據分析過程中產生的問題。

3、大數據兩大核心:雲技術和BI

(1)、雲技術

雲技術是指在廣域網或局域網內將硬件、軟件、網絡等系列資源統一起來,實現數據的計算、儲存、處理和共享的一種託管技術。

大數據:大數據的實際應用、發展趨勢和麵臨的問題

雲技術關係圖

雲技術(Cloud technology)基於雲計算商業模式應用的網絡技術、信息技術、整合技術、管理平臺技術、應用技術等的總稱,可以組成資源池,按需所用,靈活便利。雲計算技術將變成重要支撐。技術網絡系統的後臺服務需要大量的計算、存儲資源,如視頻網站、圖片類網站和更多的門戶網站。伴隨著物聯網行業的高度發展和應用,將來每個物品都有可能存在自己的識別標誌,都需要傳輸到後臺系統進行邏輯處理,不同程度級別的數據將會分開處理,各類行業數據皆需要強大的系統後盾支撐,只能通過雲計算來實現。

(2)、BI

BI(Business Intelligence)即商務智能,它是一套完整的解決方案,用來將企業中現有的數據進行有效的整合,快速準確地提供報表並提出決策依據,幫助企業做出明智的業務經營決策。

大數據:大數據的實際應用、發展趨勢和麵臨的問題

BI商業智能解決方案

把商業智能看成一種解決方案應該比較恰當。商業智能的關鍵是從許多來自不同的企業運作系統的數據中提取出有用的數據並進行清理,以保證數據的正確性,然後經過抽取(Extraction)、轉換(Transformation)和裝載(Load),即ETL過程,合併到一個企業級的數據倉庫裡,從而得到企業數據的一個全局視圖,在此基礎上利用合適的查詢和分析工具、數據挖掘工具、OLAP工具等對其進行分析和處理(這時信息變為輔助決策的知識),最後將知識呈現給管理者,為管理者的決策過程提供數據支持。商業智能產品及解決方案大致可分為數據倉庫產品、數據抽取產品、OLAP產品、展示產品、和集成以上幾種產品的針對某個應用的整體解決方案等。

(3)、雲技術和BI的關係

通過雲技術和BI商業智能相結合,從而達到相輔相成互補的作用,離開雲技術大數據沒有根基和落地可能,離開BI和價值,大數據又將變化為捨本逐末,丟棄關鍵目標。簡單總結就是大數據目標驅動是BI,大數據實施落地式雲技術。所以說明大數據兩大核心為雲技術和BI。

傳統的BI分析通過大量的ETL數據抽取和集中化,形成一個完整的數據倉庫,而基於大數據的BI分析,可能並沒有一個集中化的數據倉庫,或者將數據倉庫本身也是分佈式的了,BI分析的基本方法和思路並沒有變化,但是落地到執行的數據存儲和數據處理方法卻發生了大變化。

六、大數據的實際應用

說起大數據的實際應用,我們舉一些我們知道的例子,這樣更貼近我們的生活,也可以讓我們更容易理解大數據,也能更好的感受大數據的魅力。

1. 梅西百貨的實時定價機制。根據需求和庫存的情況,該公司基於SAS的系統對多達7300萬種貨品進行實時調價。

2. Tipp24 AG針對歐洲博彩業構建的下注和預測平臺。該公司用KXEN軟件來分析數十億計的交易以及客戶的特性,然後通過預測模型對特定用戶進行動態的營銷活動。這項舉措減少了90%的預測模型構建時間。SAP公司正在試圖收購KXEN。

3. 沃爾瑪的搜索。這家零售業寡頭為其網站Walmart.com自行設計了最新的搜索引擎Polaris,利用語義數據進行文本分析、機器學習和同義詞挖掘等。根據沃爾瑪的說法,語義搜索技術的運用使得在線購物的完成率提升了10%到15%。“對沃爾瑪來說,這就意味著數十億美元的金額。”Laney說。

4. 快餐業的視頻分析。該公司通過視頻分析等候隊列的長度,然後自動變化電子菜單顯示的內容。如果隊列較長,則顯示可以快速供給的食物;如果隊列較短,則顯示那些利潤較高但準備時間相對長的食品。

5. Morton牛排店的品牌認知。當一位顧客開玩笑地通過推特向這家位於芝加哥的牛排連鎖店訂餐送到紐約Newark機場(他將在一天工作之後抵達該處)時,Morton就開始了自己的社交秀。首先,分析推特數據,發現該顧客是本店的常客,也是推特的常用者。根據客戶以往的訂單,推測出其所乘的航班,然後派出一位身著燕尾服的侍者為客戶提供晚餐。

6. PredPol Inc.預測犯罪機率。PredPol公司通過與洛杉磯和聖克魯斯的警方以及一群研究人員合作,基於地震預測算法的變體和犯罪數據來預測犯罪發生的幾率,可以精確到500平方英尺的範圍內。在洛杉磯運用該算法的地區,盜竊罪和暴力犯罪分佈下降了33%和21%。

7. Tesco PLC(特易購)提高運營效率。這家超市連鎖在其數據倉庫中收集了700萬部冰箱的數據。通過對這些數據的分析,進行更全面的監控並進行主動的維修以降低整體能耗。

8. American Express(美國運通AmEx)實現商業智能。以往,AmEx只能實現事後諸葛式的報告和滯後的預測。“傳統的BI已經無法滿足業務發展的需要。”Laney認為。於是,AmEx開始構建真正能夠預測忠誠度的模型,基於歷史交易數據,用115個變量來進行分析預測。該公司表示,對於澳大利亞將於之後四個月中流失的客戶,已經能夠識別出其中的24%。

大數據:大數據的實際應用、發展趨勢和麵臨的問題

大數據發展趨勢

七、大數據發展7大趨勢

所以,在政府的明確方向引導,專家學者的共同推動下,現在大數據呈現7大趨勢:

1、趨勢一:數據的資源化

何為資源化,是指大數據成為企業和社會關注的重要戰略資源,並已成為大家爭相搶奪的新焦點。因而,企業必須要提前制定大數據營銷戰略計劃,搶佔市場先機,這樣才能保證立足於商場不敗之地。

2、趨勢二:與雲計算的深度結合

大數據離不開雲處理,雲處理為大數據提供了彈性可拓展的基礎設備,是產生大數據的平臺之一。自2013年開始,大數據技術已開始和雲計算技術緊密結合,預計未來兩者關係將更為密切。除此之外,物聯網、移動互聯網等新興計算形態,也將一齊助力大數據革命,讓大數據營銷發揮出更大的影響力。

3、趨勢三:科學理論的突破

隨著大數據的快速發展,就像計算機和互聯網一樣,大數據很有可能是新一輪的技術革命。隨之興起的數據挖掘、機器學習和人工智能等相關技術,可能會改變數據世界裡的很多算法和基礎理論,實現科學技術上的突破。

4、趨勢四:數據科學和數據聯盟的成立

未來,數據科學將成為一門專門的學科,被越來越多的人所認知。各大高校將設立專門的數據科學類專業,也會催生一批與之相關的新的就業崗位。與此同時,基於數據這個基礎平臺,也將建立起跨領域的數據共享平臺,之後,數據共享將擴展到企業層面,並且成為未來產業的核心一環。

5、趨勢五:數據管理成為核心競爭力

數據管理成為核心競爭力,直接影響財務表現。當“數據資產是企業核心資產”的概念深入人心之後,企業對於數據管理便有了更清晰的界定,將數據管理作為企業核心競爭力,持續發展,戰略性規劃與運用數據資產,成為企業數據管理的核心。數據資產管理效率與主營業務收入增長率、銷售收入增長率顯著正相關;此外,對於具有互聯網思維的企業而言,數據資產競爭力所佔比重為36.8%,數據資產的管理效果將直接影響企業的財務表現。

6、趨勢六:數據質量是BI(商業智能)成功的關鍵

採用自助式商業智能工具進行大數據處理的企業將會脫穎而出。其中要面臨的一個挑戰是,很多數據源會帶來大量低質量數據。想要成功,企業需要理解原始數據與數據分析之間的差距,從而消除低質量數據並通過BI獲得更佳決策。

7、趨勢七:數據生態系統複合化程度加強

大數據的世界不只是一個單一的、巨大的計算機網絡,而是一個由大量活動構件與多元參與者元素所構成的生態系統,終端設備提供商、基礎設施提供商、網絡服務提供商、網絡接入服務提供商、數據服務使能者、數據服務提供商、觸點服務、數據服務零售商等等一系列的參與者共同構建的生態系統。而今,這樣一套數據生態系統的基本雛形已然形成,接下來的發展將趨向於系統內部角色的細分,也就是市場的細分;系統機制的調整,也就是商業模式的創新;系統結構的調整,也就是競爭環境的調整等等,從而使得數據生態系統複合化程度逐漸增強。

大數據:大數據的實際應用、發展趨勢和麵臨的問題

大數據面臨的問題

八、大數據發展過程中面臨哪些問題?

一個事物的發展,往往伴隨著表揚和批評,那麼大數據又存在哪些問題,值得我們注意呢?

1、問題一:數據真實性存在質疑

在這個數據能夠快速變現的時代,因為巨大利益的誘惑,數據的真實性通常要打一個“?”,官員要政績、學界要成果、商界要名利。注水性數據導致硬數據軟化。基尼係數、博主粉絲量、復興指數,為何一直在被質疑?因為越來越多的軟件購買信息,弄虛作假,使得大數據也是真假難辨。數據背後的細節,數據源的真實、全面性以及處理過程中的科學性,是大數據走向權威和信任的重要評斷標準。

2、問題二:數據樣本具有代表性,數據信息不全面。

大家都知道“井底之蛙”的故事吧,這則寓言故事告訴我們看世界的角度不同,眼界也不同。就好像微博不能代表網友的全部意見,而網友更不能代表社會的心聲。所以我們在收集數據的時候,因為渠道的不同,往往數據信息也具有這個網站獨特的代表性,導致信息不夠全面,這樣導致大數據分析出來的結果也不是準確的。

3、問題三:數據信息存在相關性誤差。

舉一個不恰當的例子,一個城市的網頁點擊率越高,說明這個城市網絡形象越好。這顯然是不準確的,雖然,數據統計表明網頁點擊數量和城市網絡形象存在某種聯繫,但負面事件帶來的網頁量大爆發也是不可忽略的,所以這個結論的科學性大打折扣。利用大數據,基於一定算法和模型對變量元素進行相關性分析,在要素構成簡單的情景中可以,在複雜系統中,僅有相關性解釋還不夠,易走偏。相關性要真正體現在數據之間、數據與真實事件影射的現象之間、真實事件的客觀聯繫上。所以數據信息存在相關性誤差。

4、問題四:大數據故事化,不能最終解決問題。

房價已然居高不下,所以一個開發商規劃一個房地產項目時,要建立數據中心,圈地造樓,利用大數據譁眾取寵。又比如做科研項目時,往往講究另闢蹊徑,思路新穎,借用大數據大張旗鼓,如果大數據脫離實際化,營造一個概念化、故事化,這就使得大數據背離工具化、服務化和實用化的初衷,不能最終解決問題,只不過是一場華麗的泡沫秀,轉瞬即逝,應避免大數據故事化。

5、問題五:數據洩露氾濫,採取安全措施尤為重要。

未來幾年數據洩露事件的增長率也許會達到100%,除非數據在其源頭就能夠得到安全保障。可以說,在未來,每個財富500強企業都會面臨數據攻擊,無論他們是否已經做好安全防範。而所有企業,無論規模大小,都需要重新審視今天的安全定義。在財富500強企業中,超過50%將會設置首席信息安全官這一職位。企業需要從新的角度來確保自身以及客戶數據,所有數據在創建之初便需要獲得安全保障,而並非在數據保存的最後一個環節,僅僅加強後者的安全措施已被證明於事無補。

6、問題六:大數據存在侵犯隱私隱患,應立法保護隱私。

大數據是由無數個小數據組合而來,這些小數據細分到每個人的身上,既能瞭解他的行為喜好,也能評估他接下來的行為意識,所以保護大數據的安全隱私是非常有必要的,必要的時候,還可以進行立法,明確數據隱私邊界。

大數據:大數據的實際應用、發展趨勢和麵臨的問題

大數據的意義

八、發展大數據的意義

2015年9月18日貴州省啟動我國首個大數據綜合試驗區的建設工作,力爭通過3至5年的努力,將貴州大數據綜合試驗區建設成為全國數據匯聚應用新高地、綜合治理示範區、產業發展聚集區、創業創新首選地、政策創新先行區。正因如此,貴陽大數據交易平臺的建立,可以有效打破大數據信息交流阻礙,匯聚海量高價值數據,挖掘數據價值的最大化。圍繞這一目標,貴州省將重點構建“三大體系”,重點打造“七大平臺”,實施“十大工程”。

大數據交易平臺,讓信息不再是一座座“孤島”。眾多業內人士認為,儘管當前大數據存儲和挖掘技術已經逐步成熟,但數據孤島的大量存在,制約了數據的流通和變現。在大數據時代要實現商業價值變現,需要實時對接數據市場的多樣化需求,而平臺化運營成為滿足這一產業需求的必要條件。唯有將數據進行合理定價,出現數據交易市場、交易指數,才能真正帶動大數據產業的繁榮。大數據實現交易,將打破行業信息壁壘,優化提高生產效率,深度推進產業創新。這正是大數據交易平臺最核心的價值和意義所在。

同時為了把握住這一新興領域帶來的新機遇,企業需要不斷跟蹤研究大數據,不斷提升對大數據的認知和理解,堅持技術創新與應用創新的協同共進,加快經濟社會各個領域的大數據開發與利用,推動國家、行業、企業、個人對於大數據的應用需求和應用水平進入新的發展階段,引領一個全新的大數據時代。


分享到:


相關文章: