征服Hadoop:Hadoop实战之单词计数程序wordcount 技术頭條網

2020-03-19 19:34:19 Java全棧

我们搭建好集群后，也运行了hadoop本身自带提供的单词测试程序，现在我们用Eclipse和mavenlai8手动编写一下单词计数程序并提交到hadoop上运行。

一、环境准备

参考我之前的博文搭建好hadoop完全分布式环境并且启动。主备eclipse和maven.

二、新建一个maven项目

用eclipse新建一个maven羡慕，在pom.xml中添加如下依赖：

<code><dependency>
    <groupid>org.apache.hadoop/<groupid>
    <artifactid>hadoop-common/<artifactid>
    <version>2.8.5/<version>
/<dependency>
<dependency>
    <groupid>org.apache.hadoop/<groupid>
    <artifactid>hadoop-hdfs/<artifactid>
    <version>2.8.5/<version>
/<dependency>
<dependency>
    <groupid>org.apache.hadoop/<groupid>
    <artifactid>hadoop-mapreduce-client-core/<artifactid>
    <version>2.8.5/<version>
/<dependency>/<code>

因为要打包成可执行jar并且有第三方依赖，需要添加如下build

<code><build>
        <plugins>
            <plugin>
                <artifactid>maven-compiler-plugin/<artifactid>
                <configuration>
                    <source>1.6/<source>
                    <target>1.6/<target>
                /<configuration>
            /<plugin>
            <plugin>
                <groupid>org.apache.maven.plugins/<groupid>
                <artifactid>maven-shade-plugin/<artifactid>
                <version>1.4/<version>
                <configuration>
                    <createdependencyreducedpom>false/<createdependencyreducedpom> 

                /<configuration>
                <executions>
                    <execution>
                        
                        <phase>package/<phase>
                        
                        <goals>
                            <goal>shade/<goal>
                        /<goals>
                        <configuration>
                            
                            <filters>
                                <filter>
                                    <artifact>*:*/<artifact>
                                    <excludes>
                                        <exclude>META-INF/*.SF/<exclude>
                                        <exclude>META-INF/*.DSA/<exclude>
                                        <exclude>META-INF/*.RSA/<exclude>
                                    /<excludes>
                                /<filter>
                            /<filters>
                            <transformers>
                                <transformer>                                    implementation="org.apache.maven.plugins.shade.resource.AppendingTransformer">
                                    <resource>META-INF/spring.handlers/<resource>
                                /<transformer>
                                
                                <transformer>                                    implementation="org.apache.maven.plugins.shade.resource.ManifestResourceTransformer">
                                    <mainclass>com.suibibk.App/<mainclass>
                                /<transformer>
                                <transformer>                                    implementation="org.apache.maven.plugins.shade.resource.AppendingTransformer">
                                    <resource>META-INF/spring.schemas/<resource>
                                /<transformer>
                            /<transformers>
                        /<configuration>
                    /<execution>
                /<executions>
            /<plugin>
        /<plugins>
        /<build>/<code>

注意修改主方法入口，也就是main方法所在类，这样子程序就可以直接maven install打包了。

三、编写Mapper、Reducer和启动类

Mapreduce程序围绕着分而治之的思想来的，分就是Mapper程序，治就是Reducer程序，然后用一个启动类将job提交给集群运行即可。

1、项目结构

2、启动类

<code>package com.suibibk;
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
public class App {
    /**
     * 1. 业务逻辑相关信息通过job对象定义与实现 2. 将绑定好的job提交给集群去运行
     */
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);
        job.setJarByClass(App.class);
        job.setMapperClass(MyMapper.class);
        job.setReducerClass(MyReducer.class);
        // 设置业务逻辑Mapper类的输出key和value的数据类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        // 指定要处理的数据所在的位置
        FileSystem fs = FileSystem.get(conf);
        String inputPath = args[0];
        Path input = new Path(inputPath);
        if(fs.exists(input)) {
            FileInputFormat.addInputPath(job, input);
        }
        // 指定处理完成之后的结果所保存的位置
        String outputPath = args[1];
        Path output = new Path(outputPath);
        //需要先删除，不然第二次执行会报错
        fs.delete(output, true); 

        FileOutputFormat.setOutputPath(job, output);
        // 向yarn集群提交这个job
        boolean res = job.waitForCompletion(true);
        System.exit(res ? 0 : 1);
    }
}/<code>

注意在hadoop2中FileInputFormat所属的包为： org.apache.hadoop.mapreduce.lib.input.FileInputFormat。out也一样，不要搞错了，我这里直接把导入的包也黏贴上来。

3、Mapper

<code>package com.suibibk;
import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
public class MyMapper extends Mapper<longwritable>{
    // map方法的生命周期： 框架每传一行数据就被调用一次
    protected void map(LongWritable key, Text value,Context context) throws IOException ,InterruptedException {
        String line = value.toString();  // 行数据转换为string
        String[] words = line.split(" ");  // 行数据分隔单词
        for (String word : words) {  // 遍历数组，输出
            context.write(new Text(word), new IntWritable(1));
        }
    }
}/<longwritable>/<code>

4、Reducer

<code>package com.suibibk;
import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
public class MyReducer extends Reducer<text>{
    //    生命周期：框架每传递进来一个kv 组，reduce方法被调用一次
    @Override
    protected void reduce(Text key, Iterable<intwritable> values, 

            Reducer<text>.Context context) throws IOException, InterruptedException {
        int count = 0;  // 定义一个计数器
        for (IntWritable value : values) { // 遍历所有v，并累加到count中
            count += value.get();
        }
        context.write(key, new IntWritable(count));
    }
}/<text>/<intwritable>/<text>/<code>

四、提交测试

1、项目右键执行maven install（package也可以）

然后再target中获得jar包。

2、上传到hadoop集群的一台机中

我这里是上传到worker1中。

4、执行测试

测试之前得先准备一下输入文件，这里用file2.txt来，然后执行如下命令：

<code> hadoop jar wordcount-0.0.1-SNAPSHOT.jar /input/file2.txt /output/<code>

执行成功后查看结果：

<code>hadoop hdfs -cat /output/*/<code>

会发现跟hadoop提供的例子结果一样。

完成。

分享到:

閱讀更多 Java全棧 的文章

關鍵字: Eclipse HDFS 计数

征服Hadoop:Hadoop实战之单词计数程序wordcount

一、环境准备

二、新建一个maven项目

三、编写Mapper、Reducer和启动类

1、项目结构

2、启动类

3、Mapper

4、Reducer

四、提交测试

1、项目右键执行maven install（package也可以）

2、上传到hadoop集群的一台机中

4、执行测试

相關文章:

Hadoop：MapReduce多路径输入与多文件输出详解

Hadoop 伪分布式搭建指南

Hadoop 数据科学

Hadoop DataBase学习笔记

一步一步学习大数据：Hadoop 生态系统与场景

Hadoop 安装教程

php 操作 Hadoop

第四章 Hadoop 集群搭建

第七章 Hadoop 常用的 shell 命令

第二章 Hadoop 发展背景

不看就亏系列！这里有完整的 Hadoop 集群搭建教程，和最易懂的 Hadoop 概念！

大数据开发学习，Hadoop-HDFS详细介绍

03.04 大数据开发学习，Hadoop-HDFS详细介绍

03.02 看完就能独自把集群搭起来！Hadoop HDFS完全分布式环境搭建详解

03.01 Hadoop HDFS详细操作

Hbase教程菜鸟教程：Hadoop Hbase入门简介

Hadoop 3的主要优缺点

FastDFS、Hadoop、TiDB共同点与各自特点

Hadoop YARN：调度性能优化实践

SQL ON HADOOP 技术框架汇总

Hadoop 数据管理平台 Apache Falcon

深入浅出 Hadoop YARN

Hadoop、Spark等5种大数据框架对比，你的项目该用哪种？

Hadoop 企业级大数据管理平台CDH 安装Hadoop组件

Hadoop 基本 Shell命令

揭秘Apache Hadoop YARN，第一部分：集群和YARN基础

08.28 Hadoop 学习一:jdk配置

最全腾讯等BAT大数据面试99题：hadoop、java、spark、机器算法等

ELK hadoop hbase

系统学习大数据两大框架 hadoop 和spark

如何系统的学习大数据框架 hadoop 和spark？

大数据计算常用的分布式计算组件——Hadoop、Storm以及Spark

Nutch-Hadoop-MongoDB搭建分布式爬虫

好程序员：hadoop job 日志的查看

Hadoop 的主节点如何启动java程序？

hadoop上运行python——hadoop streaming：搭建数据分析体系79篇

Hadoop 面试，来看这篇就够了

Hadoop MapReduce v1 系统剖析

Hadoop 之上的数据建模-Data Vault 2.

Hadoop 回收站Trash知识点

刚刚工作的毕业生，一个月只有2000多，是不是太少了？

为什么只有edg赚钱？

网上罗马仕充电宝20000毫安的，参数怎么很多样？哪个是真的？

我们买的新商品房还没有拿到房产证，怎么转卖最好？

为什么突厥人可以成功复国？是大唐的刀不锋利了么？

小高层16层高楼间距60米哪一层比较好？

金银花盆栽好养吗？怎么养？

长城对于抵御古代匈奴和蒙古人起到了多大作用？

什么树可以嫁接腊梅？

行情堪忧，还有多少教育机构的老师们五一假期有课上的？课时量多不多？

在农村“立夏节”都有哪些民间习俗？

男朋友失望分手，但对我还有感觉，答应我两个月之后可以在一起，我应该怎么做，才能改变之前他对我的看法？

工程分包乙方人员伤残谁承担？

有哪些看起来毫不相关的两个历史人物实际上有过联系？

13年雪铁龙世嘉自动挡7万多公里，没有水泡事故，多少钱能买？

22+吃土少女17年就有驾驶证了，今年才开始开车，想买个二手昂克赛拉，或者有什么好建议吗？

如何骑车去台湾骑行？

本人预算5万左右，想买一辆二手法系车！求推荐？

14年进口马自达5PK进口10年道奇酷威买哪个划算？

2020年，河南教育行业国务院特殊津贴推荐，河南大学并列第三，大家怎么看？

本田CRV2019款1.5T舒适版油耗高吗？

国外疫情如果没有得到有效控制，世界会发生什么事情？头脑风暴？

本田XRV这款车的整体表现怎么样？我想买1.5T自动豪华版，全款多少钱？

现在存款有14万，借了5万还没收回来，该做什么好？

2070super和5700xt买哪个比较好？

生完二胎后，感觉自己有点抑郁，总是想发火，特别烦躁，怎么办？

人这一生遇到的人和事为什么感觉都像是必然的经历？

装修高手来帮忙看下144平，套内122平，怎么三房改四房？？