大數據相關的技術有哪些,大數據需要哪些雲計算技術?

雲技術大數據常和雲計算聯繫到一起,因為實時的大型數據集分析需要分佈式處理框架來向數十、數百或甚至數萬的電腦分配工作。可以說,雲計算充當了工業革命時期的發動機的角色,而大數據則是電。

雲計算思想的起源是麥卡錫在上世紀60年代提出的:把計算能力作為一種像水和電一樣的公用事業提供給用戶。

如今,在Google、Amazon、Facebook等一批互聯網企業引領下,一種行之有效的模式出現了:雲計算提供基礎架構平臺,大數據應用運行在這個平臺上。

業內是這麼形容兩者的關係:沒有大數據的信息積澱,則雲計算的計算能力再強大,也難以找到用武之地;沒有云計算的處理能力,則大數據的信息積澱再豐富,也終究只是鏡花水月。

那麼大數據到底需要哪些雲計算技術呢?

這裡暫且列舉一些,比如虛擬化技術,分佈式處理技術,海量數據的存儲和管理技術,NoSQL、實時流數據處理、智能分析技術(類似模式識別以及自然語言理解)等。

雲計算和大數據之間的關係可以用下面的一張圖來說明,兩者之間結合後會產生如下效應:可以提供更多基於海量業務數據的創新型服務;通過雲計算技術的不斷髮展降低大數據業務的創新成本。

大數據相關的技術有哪些,大數據需要哪些雲計算技術?

如果將雲計算與大數據進行一些比較,最明顯的區分在兩個方面:

第一,在概念上兩者有所不同,雲計算改變了IT,而大數據則改變了業務。然而大數據必須有云作為基礎架構,才能得以順暢運營。

第二,大數據和雲計算的目標受眾不同,雲計算是CIO等關心的技術層,是一個進階的IT解決方案。而大數據是CEO關注的、是業務層的產品,而大數據的決策者是業務層。

分佈式處理技術分佈式處理系統可以將不同地點的或具有不同功能的或擁有不同數據的多臺計算機用通信網絡連接起來,在控制系統的統一管理控制下,協調地完成信息處理任務—這就是分佈式處理系統的定義。

以Hadoop(Yahoo)為例進行說明,Hadoop是一個實現了MapReduce模式的能夠對大量數據進行分佈式處理的軟件框架,是以一種可靠、高效、可伸縮的方式進行處理的。

而MapReduce是Google提出的一種雲計算的核心計算模式,是一種分佈式運算技術,也是簡化的分佈式編程模式,MapReduce模式的主要思想是將自動分割要執行的問題(例如程序)拆解成map(映射)和reduce(化簡)的方式, 在數據被分割後通過Map 函數的程序將數據映射成不同的區塊,分配給計算機機群處理達到分佈式運算的效果,在通過Reduce 函數的程序將結果彙整,從而輸出開發者需要的結果。

再來看看Hadoop的特性,第一,它是可靠的,因為它假設計算元素和存儲會失敗,因此它維護多個工作數據副本,確保能夠針對失敗的節點重新分佈處理。其次,Hadoop 是高效的,因為它以並行的方式工作,通過並行處理加快處理速度。Hadoop 還是可伸縮的,能夠處理 PB 級數據。此外,Hadoop 依賴於社區服務器,因此它的成本比較低,任何人都可以使用。

你也可以這麼理解Hadoop的構成,Hadoop=HDFS(文件系統,數據存儲技術相關)+HBase(數據庫)+MapReduce(數據處理)+……Others

Hadoop用到的一些技術有:

HDFS: Hadoop分佈式文件系統(Distributed File System) - HDFS (HadoopDistributed File System)

MapReduce:並行計算框架

HBase: 類似Google BigTable的分佈式NoSQL列數據庫。

Hive:數據倉庫工具,由Facebook貢獻。

Zookeeper:分佈式鎖設施,提供類似Google Chubby的功能,由Facebook貢獻。

Avro:新的數據序列化格式與傳輸工具,將逐步取代Hadoop原有的IPC機制。

Pig:大數據分析平臺,為用戶提供多種接口。

Ambari:Hadoop管理工具,可以快捷的監控、部署、管理集群。

Sqoop:用於在Hadoop與傳統的數據庫間進行數據的傳遞。

大數據相關的技術有哪些,大數據需要哪些雲計算技術?

說了這麼多,舉個實際的例子,雖然這個例子有些陳舊,但是淘寶的海量數據技術架構還是有助於我們理解對於大數據的運作處理機制:

淘寶大數據如上圖所示,淘寶的海量數據產品技術架構分為五個層次,從上至下來看它們分別是:數據源,計算層,存儲層,查詢層和產品層。

數據來源層。存放著淘寶各店的交易數據。在數據源層產生的數據,通過DataX,DbSync和Timetunel準實時的傳輸到下面第2點所述的“雲梯”。

計算層。在這個計算層內,淘寶採用的是Hadoop集群,這個集群,我們暫且稱之為雲梯,是計算層的主要組成部分。在雲梯上,系統每天會對數據產品進行不同的MapReduce計算。

存儲層。在這一層,淘寶採用了兩個東西,一個使MyFox,一個是Prom。MyFox是基於MySQL的分佈式關係型數據庫的集群,Prom是基於Hadoop Hbase技術的一個NoSQL的存儲集群。

查詢層

。在這一層中,Glider是以HTTP協議對外提供restful方式的接口。數據產品通過一個唯一的URL來獲取到它想要的數據。同時,數據查詢即是通過MyFox來查詢的。

最後一層是產品層,這個就不用解釋了。

存儲技術大數據可以抽象的分為大數據存儲和大數據分析,這兩者的關係是:大數據存儲的目的是支撐大數據分析。到目前為止,還是兩種截然不同的計算機技術領域:大數據存儲致力於研發可以擴展至PB甚至EB級別的數據存儲平臺;大數據分析關注在最短時間內處理大量不同類型的數據集。

未來,每個用戶可以在互聯網上註冊個人的數據中心,以存儲個人的大數據信息。用戶可確定哪些個人數據可被採集,並通過可穿戴設備或植入芯片等感知技術來採集捕獲個人的大數據,比如,牙齒監控數據,心率數據,體溫數據,視力數據,記憶能力,地理位置信息,社會關係數據,運動數據,飲食數據,購物數據等等。

用戶可以將其中的牙齒監測數據授權給XX牙科診所使用,由他們監控和使用這些數據,進而為用戶制定有效的牙齒防治和維護計劃;也可以將個人的運動數據授權提供給某運動健身機構,由他們監測自己的身體運動機能,並有針對的制定和調整個人的運動計劃;還可以將個人的消費數據授權給金融理財機構,由他們幫你制定合理的理財計劃並對收益進行預測。當然,其中有一部分個人數據是無需個人授權即可提供給國家相關部門進行實時監控的,比如罪案預防監控中心可以實時的監控本地區每個人的情緒和心理狀態,以預防自殺和犯罪的發生。

展望過於美好,也許實現個人數據中心將遙遙無期,也許這還不是解決個人數據隱私的最好方法,也許業界對大數據的無限渴求會阻止數據個人中心的實現,但是隨著數據越來越多,在缺乏監管之後,必然會有一場激烈的博弈:到底是數據重要還是隱私重要;是以商業為中心還是以個人為中心。

在不久的將來,多智時代一定會徹底走入我們的生活,有興趣入行未來前沿產業的朋友,可以收藏多智時代,及時獲取人工智能、大數據、雲計算和物聯網的前沿資訊和基礎知識,讓我們一起攜手,引領人工智能的未來


分享到:


相關文章: