02.27 跟着小编一起学习使用Python操作Hadoop，Python-MapReduce_技术 _ 頭條網

环境

环境使用：hadoop3.1，Python3.6，ubuntu18.04

Hadoop是使用Java开发的，推荐使用Java操作HDFS。

有时候也需要我们使用Python操作HDFS。

本次我们来讨论如何使用Python操作HDFS，进行文件上传，下载，查看文件夹，以及如何使用Python进行MapReduce编程。

使用Python操作HDFS

首先需要安装和导入hdfs库，使用pip install hdfs。

1. 连接并查看指定路径下的数据

<code>from hdfs import * client = Client('http://ip:port') #2.X版本port 使用50070 3.x版本port 使用9870client.list('/') #查看hdfs /下的目录/<code>

2. 创建目录

<code>client.makedirs('/test')client.makedirs('/test',permision = 777 ) # permision可以设置参数/<code>

3. 中命名、删除

<code>client.rename('/test','123') #将/test 目录改名为123client.delete('/test',True) #第二个参数表示递归删除 /<code>

4.下载

将/test/log.txt 文件下载至/home目录下。

<code>client.download('/test/log.txt','/home') /<code>

5. 读取

<code>with client.read("/test/[PPT]Google Protocol Buffers.pdf") as reader: print reader.read()/<code>

其他参数：

read(args, *kwds)hdfs_path：hdfs路径offset：设置开始的字节位置l- ength：读取的长度（字节为单位）buffer_size：用于传输数据的字节的缓冲区的大小。默认值设置在HDFS配置。encoding：指定编码chunk_size：如果设置为正数，上下文管理器将返回一个发生器产生的每一chunk_size字节而不是一个类似文件的对象delimiter：如果设置，上下文管理器将返回一个发生器产生每次遇到分隔符。此参数要求指定的编码。progress：回调函数来跟踪进度，为每一chunk_size字节（不可用，如果块大小不是指定）。它将传递两个参数，文件上传的路径和传输的字节数。称为一次与- 1作为第二个参数。

6.上传数据

将文件上传至hdfs的 /test下。

<code>client.upload(‘/test’,’/home/test/a.log’)/<code>

Python-MapReduce

编写mapper代码，map.py：

<code>import sysfor line in sys.stdin: fields = line.strip().split() for item in fields: print(item + ' ' + '1')/<code>

编写reducer代码，reduce.py：

<code>import sysresult = {}for line in sys.stdin: kvs = line.strip().split(' ') k = kvs[0] v = kvs[1] if k in result: result[k]+=1 else: result[k] = 1for k,v in result.items(): print("%s\\t%s" %(k,v))/<code>

添加测试文本，test1.txt：

<code>tale as old as timetrue as it can bebeauty and the beast/<code>

本地测试执行map代码：

`cat test1.txt | python map.py`结果：

<code>tale 1as 1old 1as 1time 1true 1as 1it 1can 1be 1beauty 1and 1the 1beast 1/<code>

本地测试执行reduce代码：

cat test1.txt | python map.py | sort -k1,1 | python reduce.py

执行结果：

<code>and 1be 1old 1beauty 1true 1it 1beast 1as 3can 1time 1the 1tale 1/<code>

在Hadoop平台执行map-reduce程序

本地测试完毕，编写脚本在HDFS中执行程序

脚本：run.sh （请根据本机环境修改）

<code>HADOOP_CMD="/app/hadoop-3.1.2/bin/hadoop"STREAM_JAR_PATH="/app/hadoop-3.1.2/share/hadoop/tools/lib/hadoop-streaming-3.1.2.jar"INPUT_FILE_PATH_1="/py/input/"OUTPUT_PATH="/output"$HADOOP_CMD fs -rmr-skipTrash $OUTPUT_PATH# Step 1.$HADOOP_CMD jar $STREAM_JAR_PATH \\-input $INPUT_FILE_PATH_1 \\-output $OUTPUT_PATH \\-mapper "python map.py" \\-reducer "python reduce.py" \\-file ./map.py \\-file ./reduce.py \\/<code>

添加执行权限chmod a+x run.sh；执行测试：bash run.sh，查看结果：

练习

1. 文件合并去重

输入文件file1的样例如下：

20150101 x

20150102 y

20150103 x

20150104 y

20150105 z

20150106 x

输入文件file2的样例如下：

20150101 y

20150102 y

20150103 x

20150104 z

20150105 y

根据输入文件file1和file2合并得到的输出文件file3的样例如下：

20150101 x

20150101 y

20150102 y

20150103 x

20150104 y

20150104 z

20150105 y

20150105 z

20150106 x

对于两个输入文件，即文件file1和文件file2，请编写MapReduce程序，对两个文件进行合并，并剔除其中重复的内容，得到一个新的输出文件file3。为了完成文件合并去重的任务，你编写的程序要能将含有重复内容的不同文件合并到一个没有重复的整合文件，规则如下：

第一列按学号排列；学号相同，按x,y,z排列。

2. 挖掘父子关系

输入文件内容如下：

child parent

Steven Lucy
Steven Jack

Jone Lucy
Jone Jack

Lucy Mary
Lucy Frank

Jack Alice
Jack Jesse

David Alice
David Jesse

Philip David
Philip Alma

Mark David
Mark Alma

输出文件内容如下：

grandchild grandparent

Steven Alice
Steven Jesse
Jone Alice
Jone Jesse
Steven Mary
Steven Frank

Jone Mary
Jone Frank
Philip Alice
Philip Jesse
Mark Alice
Mark Jesse

你编写的程序要能挖掘父子辈关系，给出祖孙辈关系的表格。规则如下：

孙子在前，祖父在后孙子相同，祖父的名字按照A-Z排列

最后小编帮助大家整理了一套python教程，下面展示了部分，希望也能帮助对编程感兴趣，想做数据分析，人工智能、爬虫或者希望从事编程开发的小伙伴，毕竟python工资也还可以，如果能帮到你请点赞、点赞、点赞哦~~

环境

使用Python操作HDFS

Python-MapReduce

练习

相關文章:

Flink on Yarn–Per Job 与 Yarn–Session原理及区别

HBase MapReduce摘要到没有Reducer的HBase

HBase MapReduce摘要到HBase示例

HBase MapReduce 读取示例

MapReduce运行原理及源码解读

0756-7.0.3-HiveServer2无法启动异常分析

对spark rdd 宽窄依赖的理解

如何在MaxCompute中利用bitmap进行数据处理？

MongoDB 统计 group 操作用不了，试试 mapReduce 吧

02.25 MongoDB 统计 group 操作用不了，试试 mapReduce 吧

HBase分区过多影响&合理分区数量

大数据之离线数据处理 Mapreduce Shuffle原理

MapReduce 运行全过程解析

01.28 MapReduce 运行全过程解析

优化 Hive ETL 任务(参数篇)

HADOOP之MapReduce总结

大数据 Hadoop（下） 笔记大全 收藏加关注

12.21 Spark RDD 概念以及核心原理

mapreduce实现数据去重

MapReduce 内存溢出的分类、原理、如何解决？

Hadoop 生态之 MapReduce 及 Hive 简介

24. 使用@classmethod构造对象

hive如何实现不等值连接

Apache Sqoop文档~管理员手册

ES6.0.0官方参考指南翻译~指标聚合~Geo Bounds Aggregation

ES6.0.0官方参考指南翻译~指标聚合~Stats Aggregation

ES6.0.0官方参考指南翻译~指标聚合~Value Count Aggregation

ES6.0.0官方参考指南翻译~指标聚合~Sum Aggregation

ES6.0.0官方参考指南翻译~指标聚合~Min Aggregation

ES6.0.0官方参考指南翻译~指标聚合~Max Aggregation

数据结构22｜哈希算法下：哈希算法在分布式系统中有哪些应用？

你知道 MongoDB 使用场景么

Spark-关于Shuffle

MapReduce学习（九）：常见压缩算法简介

MapReduce学习（七）：Combiner和Partitioner编程

09.23 MapReduce学习（四）：Hadoop两种存储方式SequenceFile和MapFile

MapReduce学习（三）:Hadoop序列化相关接口

MapReduce学习（一）:MapReduce简介和架构原理

09.21 MAPREDUCE快速入门

快速掌握阿里云 E-MapReduce

大数据——MapReduce

基于Map-Reduce的相似度计算

收集和存储数据——数据仓库（一）

Hadoop基础知识

hive的分桶概念和数据导入

05.22 hive库是什么？数据库与数据仓库区别是什么？

数据挖掘中使用算法做出好的业务模型：搭建数据分析体系76篇

Hadoop MapReduce v1 系统剖析

第二章 IoC容器和Bean配置

运算里不得不说的python模块—math

Devops度量--DevOps 现状快速检查表

SOP是什么（解读）

还不知道交换机上如何配置DHCP，赶紧过来围观吧，一分钟包你学会

还在手动配置IP地址吗？太Low了，一分钟教会您如何配置DHCP

Python爬虫自学笔记：分析头条文章网页源文件

DNS侦查工具

国人开源的异步 Python ORM：GINO

程序测评：Create React App 3.3中有哪些酷炫新功能？

“明学”的魅力？我只要我觉得：驾驭终端，提高生产力

（必收藏系列）Linux面试题——命令集

五分钟学会如何在 IPFS 上部署网站

「正点原子NANO STM32F103开发板资料连载」第29章 内存管理实验

小白怎么学Web前端开发 如何成为技术达人

如何开发一个web静态服务器

学Java编程还有前景吗 如何才能拿到高薪

Python网络爬虫之配置篇（一）

SpringBoot 整合SpringSecurity示例实现前后分离权限注解+JWT登录认证

Python的运行效率太低？几行代码快速提升！

python的优点是什么？最新Python400集视频（附教程）

MySQL中OOM故障应如何下手-爱可生

像专家一样使用 panic

30种不同的编程语言怎么写“Hello, World”

percona QAN 介绍

面试官：你可以用纯CSS判断鼠标进入的方向吗？

网络工程师职业生涯中，哪两点是最重要的？

大数据 Hadoop（下）笔记大全收藏加关注

「正点原子NANO STM32F103开发板资料连载」第29章内存管理实验

小白怎么学Web前端开发如何成为技术达人

学Java编程还有前景吗如何才能拿到高薪