大數據之HBase MapReduce的實例分析_技术 _ 頭條網

跟Hadoop的無縫集成使得使用MapReduce對HBase的數據進行分佈式計算非常方便，本文將以前面的blog示例，介紹HBase下MapReduce開發要點。很好理解本文前提是你對Hadoop MapReduce有一定的瞭解。

HBase MapReduce核心類介紹

首先一起來回顧下MapReduce的基本編程模型，

可以看到最基本的是通過Mapper和Reducer來處理KV對，Mapper的輸出經Shuffle及Sort後變為Reducer的輸入。除了Mapper和Reducer外，另外兩個重要的概念是InputFormat和OutputFormat，定義了Map-Reduce的輸入和輸出相關的東西。HBase通過對這些類的擴展（繼承）來方便MapReduce任務來讀寫HTable中的數據。

實例分析

我們還是以最初的blog例子來進行示例分析，業務需求是這樣：找到具有相同興趣的人，我們簡單定義為如果author之間article的tag相同，則認為兩者有相同興趣，將分析結果保存到HBase。除了上面介紹的blog表外，我們新增一張表tag_friend，RowKey為tag，Value為authors,大概就下面這樣。

我們省略了一些跟分析無關的Column數據，上面的數據按前面描述的業務需求經過MapReduce分析，應該得到下面的結果

實際的運算過程分析如下

代碼實現

有了上面的分析，代碼實現就比較簡單了。只需以下幾步

定義Mapper類繼承TableMapper，map的輸入輸出KV跟上面的分析一致。public static class Mapper extends TableMapper <immutablebyteswritable> {/<immutablebyteswritable>public Mapper() {}@Overridepublic void map(ImmutableBytesWritable row, Result values,Context context) throws IOException {ImmutableBytesWritable value = null;String[] tags = null;for (KeyValue kv : values.list()) {if ("author".equals(Bytes.toString(kv.getFamily()))&& "nickname".equals(Bytes.toString(kv.getQualifier()))) {value = new ImmutableBytesWritable(kv.getValue());}if ("article".equals(Bytes.toString(kv.getFamily()))&& "tags".equals(Bytes.toString(kv.getQualifier()))) {tags = Bytes.toString(kv.getValue()).split(",");}}for (int i = 0; i < tags.length; i++) {ImmutableBytesWritable key = new ImmutableBytesWritable(Bytes.toBytes(tags[i].toLowerCase()));try {context.write(key,value);} catch (InterruptedException e) {throw new IOException(e);}}}}

複製代碼

定義Reducer類繼承TableReducer，reduce的輸入輸出KV跟上面分析的一致。public static class Reducer extends TableReducer <immutablebyteswritable> {/<immutablebyteswritable>@Overridepublic void reduce(ImmutableBytesWritable key,Iterable values,Context context) throws IOException, InterruptedException {String friends="";for (ImmutableBytesWritable val : values) {friends += (friends.length()>0?",":"")+Bytes.toString(val.get());}Put put = new Put(key.get());put.add(Bytes.toBytes("person"), Bytes.toBytes("nicknames"),Bytes.toBytes(friends));context.write(key, put);}}

複製代碼

在提交作業時設置inputFormat為TableInputFormat,設置outputFormat為TableOutputFormat，可以藉助TableMapReduceUtil類來簡化編碼。public static void main(String[] args) throws Exception {Configuration conf = new Configuration();conf = HBaseConfiguration.create(conf);Job job = new Job(conf, "HBase_FindFriend");job.setJarByClass(FindFriend.class);Scan scan = new Scan();scan.addColumn(Bytes.toBytes("author"),Bytes.toBytes("nickname"));scan.addColumn(Bytes.toBytes("article"),Bytes.toBytes("tags"));TableMapReduceUtil.initTableMapperJob("blog", scan,FindFriend.Mapper.class,ImmutableBytesWritable.class, ImmutableBytesWritable.class, job);TableMapReduceUtil.initTableReducerJob("tag_friend",FindFriend.Reducer.class, job);System.exit(job.waitForCompletion(true) ? 0 : 1);}

複製代碼

小結

本文通過實例分析演示了使用MapReduce分析HBase的數據，需要注意的這只是一種常規的方式（分析表中的數據存到另外的表中），實際上不侷限於此，不過其他方式跟此類似。如果你進行到這裡，你肯定想要馬上運行它看看結果，希望大家多多關注哦。

相關文章:

Flink on Yarn–Per Job 與 Yarn–Session原理及區別

HBase MapReduce摘要到沒有Reducer的HBase

HBase MapReduce摘要到HBase示例

HBase MapReduce 讀取示例

MapReduce運行原理及源碼解讀

0756-7.0.3-HiveServer2無法啟動異常分析

對spark rdd 寬窄依賴的理解

如何在MaxCompute中利用bitmap進行數據處理？

02.27 跟著小編一起學習使用Python操作Hadoop，Python-MapReduce

MongoDB 統計 group 操作用不了，試試 mapReduce 吧

02.25 MongoDB 統計 group 操作用不了，試試 mapReduce 吧

HBase分區過多影響&合理分區數量

大數據之離線數據處理 Mapreduce Shuffle原理

MapReduce 運行全過程解析

01.28 MapReduce 運行全過程解析

HADOOP之MapReduce總結

大數據 Hadoop（下） 筆記大全 收藏加關注

12.21 Spark RDD 概念以及核心原理

mapreduce實現數據去重

MapReduce 內存溢出的分類、原理、如何解決？

Hadoop 生態之 MapReduce 及 Hive 簡介

24. 使用@classmethod構造對象

hive如何實現不等值連接

Apache Sqoop文檔~管理員手冊

ES6.0.0官方參考指南翻譯~指標聚合~Geo Bounds Aggregation

ES6.0.0官方參考指南翻譯~指標聚合~Stats Aggregation

ES6.0.0官方參考指南翻譯~指標聚合~Value Count Aggregation

ES6.0.0官方參考指南翻譯~指標聚合~Sum Aggregation

ES6.0.0官方參考指南翻譯~指標聚合~Min Aggregation

ES6.0.0官方參考指南翻譯~指標聚合~Max Aggregation

數據結構22｜哈希算法下：哈希算法在分佈式系統中有哪些應用？

你知道 MongoDB 使用場景麼

Spark-關於Shuffle

MapReduce學習（九）：常見壓縮算法簡介

MapReduce學習（七）：Combiner和Partitioner編程

09.23 MapReduce學習（四）：Hadoop兩種存儲方式SequenceFile和MapFile

MapReduce學習（三）:Hadoop序列化相關接口

MapReduce學習（一）:MapReduce簡介和架構原理

09.21 MAPREDUCE快速入門

快速掌握阿里雲 E-MapReduce

大數據——MapReduce

基於Map-Reduce的相似度計算

收集和存儲數據——數據倉庫（一）

Hadoop基礎知識

hive的分桶概念和數據導入

05.22 hive庫是什麼？數據庫與數據倉庫區別是什麼？

數據挖掘中使用算法做出好的業務模型：搭建數據分析體系76篇

Hadoop MapReduce v1 系統剖析

第二章 IoC容器和Bean配置

運算裡不得不說的python模塊—math

Devops度量--DevOps 現狀快速檢查表

SOP是什麼（解讀）

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

DNS偵查工具

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

（必收藏系列）Linux面試題——命令集

五分鐘學會如何在 IPFS 上部署網站

「正點原子NANO STM32F103開發板資料連載」第29章 內存管理實驗

小白怎麼學Web前端開發 如何成為技術達人

如何開發一個web靜態服務器

學Java編程還有前景嗎 如何才能拿到高薪

Python網絡爬蟲之配置篇（一）

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

Python的運行效率太低？幾行代碼快速提升！

python的優點是什麼？最新Python400集視頻（附教程）

MySQL中OOM故障應如何下手-愛可生

像專家一樣使用 panic

30種不同的編程語言怎麼寫“Hello, World”

percona QAN 介紹

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

網絡工程師職業生涯中，哪兩點是最重要的？

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

大數據 Hadoop（下）筆記大全收藏加關注

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

小白怎麼學Web前端開發如何成為技術達人

學Java編程還有前景嗎如何才能拿到高薪