技術分享：基於HBase和Spark構建企業級數據處理平臺科技頭條網

技術分享：基於HBase和Spark構建企業級數據處理平臺

基於HBase和Spark構建企業級數據處理平臺,面臨的場景:金融風控;個性化推薦；社交Feeds;時空時序以及大數據等。作者：大數據與機器學習

面臨的場景

金融風控

用戶畫像庫
爬蟲抓取信息
反欺詐系統
訂單數據

個性化推薦

用戶行為分析
用戶畫像
推薦引擎
海量實時數據處理

社交Feeds

海量帖子、文章
聊天、評論
海量實時數據處理

時空時序

監控數據
軌跡、設備數據
地理信息
區域分佈統計
區域查詢

大數據

維表和結果表
離線分析
海量實時數據存儲

新的挑戰

Apache HBase(在線查詢) 的特點有：

鬆散表結構(Schema free)
隨機查詢、範圍查詢
原生海量數據分佈式存儲

高吞吐、低延遲
在線分佈式數據庫
多版本、增量導入、多維刪除

面臨的新的挑戰：

流式及批量入庫
複雜分析
機器學習、圖計算
生態及聯邦分析

選擇Spark的原因

快：通過query的執行優化、Cache等技術，Spark能夠對任意數據量的數據進行快速分析。邏輯迴歸場景比Hadoop快100倍
一站式：Spark同時支持複雜SQL分析、流式處理、機器學習、圖計算等模型，且一個應用中可組合上面多個模型解決場景問題
開發者友好：同時友好支持SQL、Python、Scala、Java、R多種開發者語言
優秀的生態：支持與Ka=a、HBase、Cassandra、MongoDB、Redis、MYSQL、SQL Server等配合使用

平臺機構及案例

一站式數據處理平臺架構

數據入庫：藉助於Spark Streaming，能夠做流式ETL以及增量入庫到HBase/Phoenix。

在線查詢：HBase/Phoenix能夠對外提供高併發的在線查詢

離線分析及算法：如果HBase/Phoenix的數據需要做複雜分析及算法分析，可以使用Spark的SQL、機器學習、圖計算等

典型業務場景：爬蟲+搜索引擎

性能：流吞吐 20萬條/秒
查詢能力：HBase自動同步到solr對外提供全文檢索的查詢
一站式解決方案：Spark服務原生支持通過SQL讀取HBase 數據能力進行ETL，Spark + HBase +Solr一站式數據處理平臺

典型業務場景：大數據風控系統

Spark同時支持事中及事後風控
Spark友好對接HBase、RDS、MongoDB多種在線庫

典型業務場景：構建數據倉庫(推薦、風控)

毫秒級識別攔截代充訂單，併發十萬量級

Spark優秀的計算能力：Spark基於列式存儲Parquet的分析在數據量大的情況下比Greenplum集群有10倍的性能提升

一站式解決方案：Spark服務原生支持通過SQL讀取

HBase SQL(Phoenix)數據能力

聚焦業務：全託管的Spark服務保證了作業運行的穩定性，釋放運維人力，同時數據工作臺降低了spark作業管理成本

原理及實踐

Spark API的發展經歷了RDD、DataFrame、DataSet

Spark Streaming採用的是Micro-Batch方式處理實時數據。

作業堆積、延遲高、併發不夠?

每批次的併發：調大kafka的訂閱的分區、spark.streaming.blockInterval
代碼熱點優化：查看堆棧、broadcast、代碼優化

Spark流式處理入庫HBase

Micro-Batch Processing：100ms延遲ConKnuous Processing：1ms延遲

Spark HBase Connector的一些優化

代碼託管在：https://github.com/aliyun/aliyun-apsaradb-hbase-demo (包含Spark操作Hbase和Phoenix)

本文整理自來自阿里巴巴的沐遠的分享，由大數據技術與架構進行整理和分享。

分享到:

閱讀更多 加米穀大數據 的文章

關鍵字: Server Spark 大數據

技術分享：基於HBase和Spark構建企業級數據處理平臺

相關文章:

快速瞭解HBase表描述和修改

我們如何用“十步法”完成了一次企業級數據治理的落地？

一文詳解大數據技術和應用場景

用大數據思維做運維監控

小米說，要開源

2018年，51LA新版的那些事

毫秒級從百億大表任意維度篩選數據，是怎麼做到的……

雲計算的六大相關技術

大數據初學者必備的詳細版學習路線圖

阿里雲開源離線同步工具DataX3.0介紹

hadoop和大數據：60款頂級開源工具

百度開源Hugegraph圖數據庫

再談 HBase 八大應用場景

你真的懂嗎？分布式系統的基本問題：可用性與一致性

阿里雲發布時間序列資料庫TSDB，關於時序你了解多少？

回顧·HBase in Practice-性能、監控及問題解決

回顧·Bit Map在大數據精準營銷中的應用

全球6大數據中心，日均10億日誌場景下的高可用實踐

海量數據的分庫分表技術演進，最佳實踐

騰訊內容平台系統的架構實踐

回顧·HBase在風控系統應用和高可用實踐

這十年，阿里開發者畢玄的日常

回顧·網易HBase實踐

從存儲、實時、安全的角度談如何建立完整可用的企業大數據平台

企業使用前10的大數據框架 Spark居首MapReduce等下降

扣丁學堂大數據培訓之Zookeeper集羣管理與選舉

大數據應用：知乎容器平台演進及與大數據融合實踐

以實時風控場景爲例，阿里雲實時計算如何來做異常檢測？

阿里P8架構師談：MongoDB、Hbase、Redis等NoSQL優劣勢、應用場景

教你如何最快入門用戶畫像

大數據時代，如何根據業務選擇合適的分布式框架

回顧·HBase在貝殼找房的實踐經驗

開發者盛宴！Apache HBasecon 峯會來北京了，速來免費報名

阿里超大規模秒級監控平台的「打怪升級」之路

阿里雲正式推出消息隊列Kafka：兼容開源，數據可靠性99.999999%

港股上市！小米開源項目盤點

2018年7月份各類資料庫最新排名一覽！

Hadoop 2.0：大數據的新突破在即

貝專家分享｜金融科技公司常用存儲引擎演進

微博and阿里，「異地多活」部署經驗談

“京東資深架構師”詳細講述：搭建千萬級消息推送架構的演進之路

阿里巴巴招人了！安全需要你

阿里安全歸零實驗室招聘啓事

開源大數據平台資源隔離現狀及演進思考

小米太無恥了。

蹭熱點！說說我理解的手機包裝盒事件。

蘋果公司正式發佈iPhone SE二代手機

華為河圖、麒麟芯片和鴻蒙OS三駕馬車並行？華為生態建設佈局深遠

小米高管表示，四千毫安時 5G 手機，和三千多毫安時 4G 手機一樣

5G畫風變了：麒麟985落地首跑，榮耀坐上開往高端的「地鐵」

旗艦手機標配Wifi 6 換Wifi 6路由器的時機到了嗎？

2020年5G手機賣不動？繼蘋果砍單25%之後，華為小米紛紛跟砍？

幹翻華為P40系列 榮耀30也玩中

程序員辭互聯網工作，跨行傳統上市公司，上班第1天就蒙了

蘋果發佈新款iPhoneSE，3299元起售

我很糾結：我究竟適不適合做亞馬遜電商？看了這三條你就知道了

請仔細閱讀，關於跨境電商你想知道的都在這兒

騙子手段太“精明”：商家賠了貨物又賠款，亞馬遜平臺騙術大揭祕

做跨境電商這麼多年，今天才知道給國外客戶發文件原來這麼簡單

值得收藏！三類賣家三種選品方案，總有適合你的一個……

萬萬沒想到！亞馬遜平臺上面賣床單竟營收一個億！你還在等什麼？

做店鋪這麼多年，今天才知道我的listing突然被封，竟是因為……

亞馬遜小白看過來！請採納這些：亞馬遜選品和運營的小建議

亞馬遜賣家如何爆單？跨境精細化運營攻略必看

不收保證金、入住費、年費，還免三個月佣金，我也想入駐這個平臺

馬雲終於要辭職了，留下的話句句觸動人心

等等，明年5G手機將迎來大降價

微信公開課PRO版2019正在進行時，往屆各自都有什麼黑科技

推出「信任分」升級「閃購」，美團本地生活這盤棋有多大？

5G我們超越了6G我們也將領先! 美國為什麼會害怕失去5G領導地位呢

界讀｜華為：幫助英國共渡疫情難關，無端批評令英國蒙受損失

為什麼華為今天可以傲視群雄，在世界上立於不敗之地？

血戰「在線辦公」，阿里、騰訊、字節、華為的底牌與大殺器

2020年最強拍照旗艦來了 華為P40系列多項業界首創 香！

今天聊一聊直播

通過直播賺錢不容易，既要豁得出去，又要端得起來

AI和自動化技術聯手，最終會讓60%的工人失去現有的飯碗。

這個網還能不能好好上了？今日全球IPv4地址正式耗盡

幹翻華為P40系列榮耀30也玩中

2020年最強拍照旗艦來了華為P40系列多項業界首創香！

互聯網流量需求增大希臘民眾“宅生活”考驗網速

好像在哪見過？華為nova7官宣餘承東:何必只有一點點