什麼是大數據?
大數據(big data),指無法在一定時間範圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》中大數據指不用隨機分析法(抽樣調查)這樣捷徑,而採用所有數據進行分析處理。大數據的5V特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。
大數據應用現狀
醫療/健康 | |
電商 | 淘寶、天貓、京東、亞馬遜 |
精準銷售 | 對用戶消費全過程數據進行分析,掌握用戶基本屬性、購買能力、行為特徵、社交特徵、心裡特徵和興趣偏好等多方面信息。 |
商家和供應商決策支持。 | 提供具有高度時效性的行業平均數據、市場需求變化、產業上下游動態等市場信息,幫助商家和供應商分析運營狀態,預測銷售和用戶趨勢,並提供針對性的運營優化策略; |
平臺運營優化 | 通過大數據分析為管理層以及各級運營管理人員提供數據分析和決策支持服務。 |
語音服務 | 科大訊飛、雲知聲、思必馳、捷通華聲; |
廣告營銷 | 億贊普、智子云、秒針系統、品友互動、精碩科技、集奧聚合、締元信、 |
金融 | 閃銀(Wecash)、宜信、拍拍貸、陸金所、人人貸、芝麻徵信、騰訊徵信、京小貸、元寶鋪、融360、數聯銘品、九次方; |
影視/娛樂 | 騰訊視頻、愛奇藝、優酷&土豆、搜狐視頻、蝦米音樂、網易雲音樂、豆瓣FM\QQ音樂、藝恩世紀國際信息諮詢(北京)有限公司、新影數訊、艾漫科技、牧星人影視。 |
在線教育 | 作業通、作業幫、學霸君 |
人力資源 | 搜前途、哪上班、e成招聘、望才招聘、內聘網、人人獵頭 |
旅遊 | 去哪兒、好巧網、馬蜂窩、智遊啦、攜程 |
地理信息服務 | |
交通/物流 | 航旅縱橫、飛常準、途志、車來了、北京匯通天下物聯科技、快的打車、美的空調、快逸行、九五智駕 |
房地產 | 萬科地產、鏈家地產、易遨中國、萬達地產 |
企業應用 | 企業有東方國信、亞信、金蝶、用友、神州數碼 |
輿情 |
大數據技術共性
業界主流大數據技術框架
磁盤存儲
HDFS、HBASE、S3、Cassandra、MongoDB、Redis
內存存儲
Alluxio 、Redis
數據分析
Spark(SQL、Streaming、MLlib、GraphX)、Storm、MapReduce、Mahout、Hive、Pig
分步式協調服務
ZooKeeper
集群系統監控
CDH-CMS, Metrics, Grafana、Ambari
消息總線
kafka、ActiveMQ、Apollo、 Redis
索引系統
Solr、Lucene、ElasticSearch
大數據組件應用分類
數據採集
flume、kafka connector、sqoop、socket、sftp、mina
實時處理
Spark Streaming、Kafka Streams、Storm、Samza、Flink
數據存儲
HDFS、HBASE、S3、Cassandra、MongoDB、Redis、Solr、ElasticSearch
離線處理
Spark SQL、Hive、Map Reduce、Pig、Impala
交互式查詢
Drill、PresTO、Kylin
數據展現
Echarts、Tableau、d3js
大數據組件簡介
1、Hadoop是Apache開源組織的一個分佈式計算框架,提供了一個分佈式文件系統 (HDFS)、MapReduce分佈式計算及統一資源管理框架(Yarn)的軟件架構。
為大規模數據的存儲提供解決方案(HDFS);
解決大規模分步式計算( MapReduce );
作為其周邊軟件Hbase、Hive、Pig、Mahout等的基礎平臺。
2、HBase是一個高可靠性、高性能、面向列、可伸縮的分佈式存儲系統,利用HBase技術可在廉價PC Server上搭建起大規模結構化存儲集群。
解決海量數據的存儲;
解決隨機、實時讀寫大數據;
提供簡化訪問HDFS的編程接口。
3、kafka是Apache旗下的一個高性能,高吞吐量的分步式消息總線系統。
分佈式系統相互通信;
數據複製、同步;
日誌同步;
Delay Queue;
-
廣播通知。
4、Hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,並提供簡單的sql查詢功能,可以將sql語句轉換為MapReduce任務進行運行。 其優點是學習成本低,可以通過類SQL語句快速實現簡單的MapReduce統計,不必開發專門的MapReduce應用,十分適合數據倉庫的統計分析。
解決海量數據的存儲;
解決大規模數據的分析:SQL。
5、MongoDB 是一個高性能,開源,無模式的文檔型數據庫,它在許多場景下可用於替代傳統的關係型數據庫或鍵/值存儲方式。MongoDB不支持SQL,但有自己功能強大的查詢語法。MongoDB使用BSON作為數據存儲和傳輸的格式。BSON是一種類似JSON的二進制序列化文檔,支持嵌套對象和數組。
解決海量數據在線存儲;
許多情況下可以代替傳統關係數據庫;
代替鍵/值存儲方式。
6、Redis是一個開源的使用ANSI C語言編寫、支持網絡、可基於內存亦可持久化的日誌型、Key-Value數據庫,並提供多種語言的API。從2010年3月15日起,Redis的開發工作由VMware主持。從2013年5月開始,Redis的開發由Pivotal贊助。
7、Apache Spark 是專為大規模數據處理而設計的快速通用的計算引擎。Spark是UC Berkeley AMP lab (加州大學伯克利分校的AMP實驗室)所開源的類Hadoop MapReduce的通用並行框架,Spark,擁有Hadoop MapReduce所具有的優點;但不同於MapReduce的是——Job中間輸出結果可以保存在內存中,從而不再需要讀寫HDFS,因此Spark能更好地適用於數據挖掘與機器學習等需要迭代的MapReduce的算法。
Spark 是一種與 Hadoop 相似的開源集群計算環境,但是兩者之間還存在一些不同之處,這些有用的不同之處使 Spark 在某些工作負載方面表現得更加優越,換句話說,Spark 啟用了內存分佈數據集,除了能夠提供交互式查詢外,它還可以優化迭代工作負載。
Spark 是在 Scala 語言中實現的,它將 Scala 用作其應用程序框架。與 Hadoop 不同,Spark 和 Scala 能夠緊密集成,其中的 Scala 可以像操作本地集合對象一樣輕鬆地操作分佈式數據集。
8、Storm是一個分佈式的、容錯的實時計算系統。使用Storm進行實時大數據分析。
10、Alluxio A memory speed virtual distributed storage. Alluxio是一個高容錯的內存分佈式文件系統,允許文件以內存的速度在集群框架中進行可靠的共享。典型特點就是加速讀寫數據的速度。
11、ElasticSearch是一個基於Lucene的搜索服務器。它提供了一個分佈式多用戶能力的全文搜索引擎,基於RESTful web接口。其典型特點是全文快速檢索。
閱讀更多 加米穀大數據 的文章