技術分享：基於HBase和Spark構建企業級數據處理平臺_科技 _ 頭條網

基於HBase和Spark構建企業級數據處理平臺,面臨的場景:金融風控;個性化推薦；社交Feeds;時空時序以及大數據等。作者：大數據與機器學習

面臨的場景

金融風控

用戶畫像庫爬蟲抓取信息反欺詐系統訂單數據

個性化推薦

用戶行為分析用戶畫像推薦引擎海量實時數據處理

社交Feeds

海量帖子、文章聊天、評論海量實時數據處理

時空時序

監控數據軌跡、設備數據地理信息區域分佈統計區域查詢

大數據

維表和結果表離線分析海量實時數據存儲

新的挑戰

Apache HBase(在線查詢) 的特點有：

鬆散表結構(Schema free)隨機查詢、範圍查詢原生海量數據分佈式存儲高吞吐、低延遲在線分佈式數據庫多版本、增量導入、多維刪除

面臨的新的挑戰：

流式及批量入庫複雜分析機器學習、圖計算生態及聯邦分析

選擇Spark的原因

快：通過query的執行優化、Cache等技術，Spark能夠對任意數據量的數據進行快速分析。邏輯迴歸場景比Hadoop快100倍一站式：Spark同時支持複雜SQL分析、流式處理、機器學習、圖計算等模型，且一個應用中可組合上面多個模型解決場景問題開發者友好：同時友好支持SQL、Python、Scala、Java、R多種開發者語言優秀的生態：支持與Ka=a、HBase、Cassandra、MongoDB、Redis、MYSQL、SQL Server等配合使用

平臺機構及案例

一站式數據處理平臺架構

數據入庫：藉助於Spark Streaming，能夠做流式ETL以及增量入庫到HBase/Phoenix。在線查詢：HBase/Phoenix能夠對外提供高併發的在線查詢離線分析及算法：如果HBase/Phoenix的數據需要做複雜分析及算法分析，可以使用Spark的SQL、機器學習、圖計算等

典型業務場景：爬蟲+搜索引擎

性能：流吞吐 20萬條/秒查詢能力：HBase自動同步到solr對外提供全文檢索的查詢一站式解決方案：Spark服務原生支持通過SQL讀取HBase 數據能力進行ETL，Spark + HBase +Solr一站式數據處理平臺

典型業務場景：大數據風控系統

Spark同時支持事中及事後風控Spark友好對接HBase、RDS、MongoDB多種在線庫

典型業務場景：構建數據倉庫(推薦、風控)

毫秒級識別攔截代充訂單，併發十萬量級Spark優秀的計算能力：Spark基於列式存儲Parquet的分析在數據量大的情況下比Greenplum集群有10倍的性能提升一站式解決方案：Spark服務原生支持通過SQL讀取HBase SQL(Phoenix)數據能力聚焦業務：全託管的Spark服務保證了作業運行的穩定性，釋放運維人力，同時數據工作臺降低了spark作業管理成本

原理及實踐

Spark API的發展經歷了RDD、DataFrame、DataSet

Spark Streaming採用的是Micro-Batch方式處理實時數據。

作業堆積、延遲高、併發不夠?

每批次的併發：調大kafka的訂閱的分區、spark.streaming.blockInterval代碼熱點優化：查看堆棧、broadcast、代碼優化

Spark流式處理入庫HBase

Micro-Batch Processing：100ms延遲ConKnuous Processing：1ms延遲

Spark HBase Connector的一些優化

代碼託管在：https://github.com/aliyun/aliyun-apsaradb-hbase-demo (包含Spark操作Hbase和Phoenix)

本文整理自來自阿里巴巴的沐遠的分享，由大數據技術與架構進行整理和分享。

相關文章:

快速瞭解HBase表描述和修改

我們如何用“十步法”完成了一次企業級數據治理的落地？

一文詳解大數據技術和應用場景

用大數據思維做運維監控

小米說，要開源

2018年，51LA新版的那些事

毫秒級從百億大表任意維度篩選數據，是怎麼做到的……

雲計算的六大相關技術

大數據初學者必備的詳細版學習路線圖

阿里雲開源離線同步工具DataX3.0介紹

hadoop和大數據：60款頂級開源工具

百度開源Hugegraph圖數據庫

再談 HBase 八大應用場景

你真的懂嗎？分布式系統的基本問題：可用性與一致性

阿里雲發布時間序列資料庫TSDB，關於時序你了解多少？

回顧·HBase in Practice-性能、監控及問題解決

回顧·Bit Map在大數據精準營銷中的應用

全球6大數據中心，日均10億日誌場景下的高可用實踐

海量數據的分庫分表技術演進，最佳實踐

騰訊內容平台系統的架構實踐

回顧·HBase在風控系統應用和高可用實踐

這十年，阿里開發者畢玄的日常

回顧·網易HBase實踐

從存儲、實時、安全的角度談如何建立完整可用的企業大數據平台

企業使用前10的大數據框架 Spark居首MapReduce等下降

扣丁學堂大數據培訓之Zookeeper集羣管理與選舉

大數據應用：知乎容器平台演進及與大數據融合實踐

以實時風控場景爲例，阿里雲實時計算如何來做異常檢測？

阿里P8架構師談：MongoDB、Hbase、Redis等NoSQL優劣勢、應用場景

教你如何最快入門用戶畫像

大數據時代，如何根據業務選擇合適的分布式框架

回顧·HBase在貝殼找房的實踐經驗

開發者盛宴！Apache HBasecon 峯會來北京了，速來免費報名

阿里超大規模秒級監控平台的「打怪升級」之路

阿里雲正式推出消息隊列Kafka：兼容開源，數據可靠性99.999999%

港股上市！小米開源項目盤點

2018年7月份各類資料庫最新排名一覽！

Hadoop 2.0：大數據的新突破在即

貝專家分享｜金融科技公司常用存儲引擎演進

微博and阿里，「異地多活」部署經驗談

“京東資深架構師”詳細講述：搭建千萬級消息推送架構的演進之路

阿里巴巴招人了！安全需要你

阿里安全歸零實驗室招聘啓事

開源大數據平台資源隔離現狀及演進思考

小米太無恥了。

蹭熱點！說說我理解的手機包裝盒事件。

蘋果公司正式發佈iPhone SE二代手機

華為河圖、麒麟芯片和鴻蒙OS三駕馬車並行？華為生態建設佈局深遠

小米高管表示，四千毫安時 5G 手機，和三千多毫安時 4G 手機一樣

5G畫風變了：麒麟985落地首跑，榮耀坐上開往高端的「地鐵」

旗艦手機標配Wifi 6 換Wifi 6路由器的時機到了嗎？

2020年5G手機賣不動？繼蘋果砍單25%之後，華為小米紛紛跟砍？

幹翻華為P40系列 榮耀30也玩中

程序員辭互聯網工作，跨行傳統上市公司，上班第1天就蒙了

蘋果發佈新款iPhoneSE，3299元起售

我很糾結：我究竟適不適合做亞馬遜電商？看了這三條你就知道了

請仔細閱讀，關於跨境電商你想知道的都在這兒

騙子手段太“精明”：商家賠了貨物又賠款，亞馬遜平臺騙術大揭祕

做跨境電商這麼多年，今天才知道給國外客戶發文件原來這麼簡單

值得收藏！三類賣家三種選品方案，總有適合你的一個……

萬萬沒想到！亞馬遜平臺上面賣床單竟營收一個億！你還在等什麼？

做店鋪這麼多年，今天才知道我的listing突然被封，竟是因為……

亞馬遜小白看過來！請採納這些：亞馬遜選品和運營的小建議

亞馬遜賣家如何爆單？跨境精細化運營攻略必看

不收保證金、入住費、年費，還免三個月佣金，我也想入駐這個平臺

馬雲終於要辭職了，留下的話句句觸動人心

等等，明年5G手機將迎來大降價

微信公開課PRO版2019正在進行時，往屆各自都有什麼黑科技

推出「信任分」升級「閃購」，美團本地生活這盤棋有多大？

5G我們超越了6G我們也將領先! 美國為什麼會害怕失去5G領導地位呢

界讀｜華為：幫助英國共渡疫情難關，無端批評令英國蒙受損失

為什麼華為今天可以傲視群雄，在世界上立於不敗之地？

血戰「在線辦公」，阿里、騰訊、字節、華為的底牌與大殺器

2020年最強拍照旗艦來了 華為P40系列多項業界首創 香！

今天聊一聊直播

通過直播賺錢不容易，既要豁得出去，又要端得起來

AI和自動化技術聯手，最終會讓60%的工人失去現有的飯碗。

這個網還能不能好好上了？今日全球IPv4地址正式耗盡

12306系統不行？內行人告訴你它有多牛，阿里騰訊高手去了也膜拜

幹翻華為P40系列榮耀30也玩中

2020年最強拍照旗艦來了華為P40系列多項業界首創香！