Spark for Java: SparkCore RDD Value类型方法案例_技术 _ 頭條網

package /com.pactera.base;

import /com.pactera.base.bean.User;
import /com.pactera.base.utils.BaseUtil;
import /org.apache.spark.SparkConf;
import /org.apache.spark.SparkContext;
import /org.apache.spark.api.java.JavaPairRDD;
import /org.apache.spark.api.java.JavaRDD;
import /org.apache.spark.api.java.JavaSparkContext;
import /org.apache.spark.api.java.function.DoubleFlatMapFunction;
import /org.apache.spark.api.java.function.FlatMapFunction;
import /org.apache.spark.api.java.function.Function;
import /org.apache.spark.api.java.function.Function2;
import /org.apache.spark.rdd.RDD;
import /org.json4s.JsonAST;
import /scala.Function1;
import /scala.collection.TraversableOnce;
import /scala.math.Ordering;
import /java.util.*;

/**
* SparkCore RDD Value类型
*
* /@author /张锐
* /@create /2020/2/2 14:01
*/
/public class /BaseApplication {
public static void /main(String[] args) {
BaseUtil baseUtil = new /BaseUtil();
JavaSparkContext sparkContext = baseUtil.init();
List<integer> data = Arrays.asList(1/, 2/, 3/, 4/, 5/, 6/);
JavaRDD<integer> javaRDD = sparkContext.parallelize(data);
//1. map(func)案例:返回一个新的RDD，该RDD由每一个输入元素经过func函数转换后组成
/JavaRDD<integer> mapRDD = javaRDD.map(value -> value * 2/);
//2. mapPartitions(func) 案例:类似于map，但独立地在RDD的每一个分片上运行
/JavaRDD<integer> mapPartitions = javaRDD.mapPartitions(iterator -> {
List<integer> list = new /ArrayList<>();
while /(iterator.hasNext()) {
Integer next = iterator.next();
list.add(next);
}
return /list.iterator();
});
//jdk<1.8
/javaRDD.mapPartitions(new /FlatMapFunction<iterator>, Integer>() {
@Override
/

public /Iterator<integer> call(Iterator<integer> integerIterator) throws /Exception {
List<integer> list = new /ArrayList<>();
while /(integerIterator.hasNext()) {
Integer next = integerIterator.next();
list.add(next);
}
return /list.iterator();
}
});
//3. mapPartitionsWithIndex(func) 案例:类似于mapPartitions，但func带有一个整数参数表示分片的索引值
/javaRDD.mapPartitionsWithIndex((index, integerIterator) -> {
//index表示分区的索引值
/List<integer> list = new /ArrayList<>();
while /(integerIterator.hasNext()) {
Integer next = integerIterator.next();
list.add(next);
}
return /list.iterator();
}, true/);
javaRDD.mapPartitionsWithIndex(new /Function2<integer>, Iterator<integer>>() {
@Override
/public /Iterator<integer> call(Integer integer, Iterator<integer> integerIterator) throws /Exception {
List<integer> list = new /

ArrayList<>();
while /(integerIterator.hasNext()) {
Integer next = integerIterator.next();
list.add(next);
}
return /list.iterator();
}
}, true/);
//4. flatMap(func) 案例:类似于map，但是每一个输入元素可以被映射为0或多个输出元素
/javaRDD.flatMap(value -> Arrays.asList(value).iterator());
JavaRDD<integer> flatMap = javaRDD.flatMap(new /FlatMapFunction<integer>() {
@Override
/public /Iterator<integer> call(Integer integer) throws /Exception {
return /Arrays.asList(integer).iterator();
}
});
//5. glom案例:将每一个分区形成一个数组，形成新的RDD类型时RDD[Array[T]]
/JavaRDD<list>> glom = javaRDD.glom();
//6. groupBy(func)案例：分组，按照传入函数的返回值进行分组。将相同的key对应的值放入一个迭代器
//对象需要实现序列化接口
/List<user> users = User.init();
JavaRDD<user> userJavaRDD = sparkContext.parallelize(users);
Map<integer>> integerIterableMap = javaRDD.groupBy(value -> value).collectAsMap();
JavaPairRDD<object>> groupBy = userJavaRDD.groupBy(new /Function<user>() {
@Override

/public /Object call(User user) throws /Exception {
return /user.getAge();
}
});
Map<object>> collectAsMap = groupBy.collectAsMap();
System.out/.println(collectAsMap);
//7. filter(func) 案例:过滤。返回一个新的RDD，该RDD由经过func函数计算后返回值为true的输入元素组成
/JavaRDD<integer> filter = javaRDD.filter(value -> value > 2/);
//8. sample(withReplacement, fraction, seed) 案例:以指定的随机种子随机抽样出数量为fraction的数据，
// withReplacement表示是抽出的数据是否放回，true为有放回的抽样，false为无放回的抽样，seed用于指定随机数生成器种子
/JavaRDD<integer> sample = javaRDD.sample(true/, 3/);
//9. distinct([numTasks])) 案例:对源RDD进行去重后返回一个新的RDD。
// 默认情况下，只有8个并行任务来操作，但是可以传入一个可选的numTasks参数改变它
/javaRDD.distinct().collect();
//10. coalesce(numPartitions) 案例:缩减分区数，用于大数据集过滤后，提高小数据集的执行效率。
/javaRDD.coalesce(2/);
javaRDD.coalesce(2/, true/);
//11. repartition(numPartitions) 案例:根据分区数，重新通过网络随机洗牌所有数据。
/javaRDD.repartition(2/);

//12. coalesce和repartition的区别:
//1. coalesce重新分区，可以选择是否进行shuffle过程。由参数shuffle: Boolean = false/true决定。
//2. repartition实际上是调用的coalesce，默认是进行shuffle的
//13. sortBy(func,[ascending], [numTasks]) 案例:使用func先对数据进行处理，按照处理后的数据比较结果排序，默认为正序。
/javaRDD.sortBy(value -> value * 2/, true/, 2/);
//14. pipe(command, [envVars]) 案例:管道，针对每个分区，都执行一个shell脚本，返回输出的RDD。
//注意：脚本需要放在Worker节点可以访问到的位置
/javaRDD.pipe("sh demo.sh"/);
sparkContext.stop();
}
}/<integer>/<integer>/<object>/<user>/<object>/<integer>/<user>/<user>/<list>/<integer>/<integer>/<integer>/<integer>/<integer>/<integer>/<integer>/<integer>/<integer>/<integer>/<integer>/<integer>/<iterator>/<integer>/<integer>/<integer>/<integer>/<integer>

相關文章:

ArrayList哪种循环效率更好你真的清楚吗

JAVA List 集合深复制与潜复制

Java 源码分析-Byte类分析

java 动态调用类的方法

Java 实现线程的方式有几种方式？带有返回值的线程怎么实现？

Java—发送GET、POST请求工具

JAVA 转换 树结构数据

java static关键字深入理解

Java HashMap源码学习

Java 循环队列原理与用法详解

Java-字符串

Java 程序中不使用第三个变量交换两个字符串

Java 随机生成中文名字

Java 内部类详解

03.08 Java 遍历List 集合的四种方法

Java HashMap遍历的四种方式

03.08 Java HashMap遍历的四种方式

Java 如何优雅的统计代码块耗时

Java：Serializable反序列化过程

03.02 Java HashMap 常用方法详解

Java 动态代理的简单使用和理解

一遍记住 Java 常用的八种排序算法与代码实现

01.30 Java Serializable：明明就一个空的接口嘛

java 线程池的原理及使用

多个角度全方位带你看透 Java 线程池（附学习参考思路）

「Java基础」Java 反射的几种方式

09.27 java 获取当前时间的三种方法

JAVA:什么情况下需要判空对象？

java 远程接口调用RIC 矩阵计算实现

Java 集合系列： Map架构，看完才知道逻辑思维的重要性

java 一步一步教你手写ReentrantLock(二）

Java 基础之详解 Java IO

Java 字段反射

Java NIO：NIO概述

Java 并发小结

Java NIO Buffer 分散和归集

Java NIO Buffer 实践与概念

java transient 关键字

java File类

Java NIO Demo

Java Web之HttpClient请求连接池连接池

08.16 Java 并发编程必看，为你解读 Java 读写锁实现原理

Java 内功修炼第一讲之谈谈对 Java 平台的理解

Java 学习——Java 多线程三大核心点

05.31 Java高级编程——Java IO的flush

02.03 java getDeclaredXXX和getXXX方法，你是如何用，如何选择的？

第二章 IoC容器和Bean配置

运算里不得不说的python模块—math

Devops度量--DevOps 现状快速检查表

SOP是什么（解读）

还不知道交换机上如何配置DHCP，赶紧过来围观吧，一分钟包你学会

还在手动配置IP地址吗？太Low了，一分钟教会您如何配置DHCP

Python爬虫自学笔记：分析头条文章网页源文件

DNS侦查工具

国人开源的异步 Python ORM：GINO

程序测评：Create React App 3.3中有哪些酷炫新功能？

“明学”的魅力？我只要我觉得：驾驭终端，提高生产力

（必收藏系列）Linux面试题——命令集

五分钟学会如何在 IPFS 上部署网站

「正点原子NANO STM32F103开发板资料连载」第29章 内存管理实验

小白怎么学Web前端开发 如何成为技术达人

如何开发一个web静态服务器

学Java编程还有前景吗 如何才能拿到高薪

Python网络爬虫之配置篇（一）

SpringBoot 整合SpringSecurity示例实现前后分离权限注解+JWT登录认证

Python的运行效率太低？几行代码快速提升！

python的优点是什么？最新Python400集视频（附教程）

MySQL中OOM故障应如何下手-爱可生

像专家一样使用 panic

30种不同的编程语言怎么写“Hello, World”

percona QAN 介绍

面试官：你可以用纯CSS判断鼠标进入的方向吗？

网络工程师职业生涯中，哪两点是最重要的？

交换机中相关术语代表什么意思，有必要弄清楚

由浅入深了解以太坊 2.0：最常见问题和最全学习清单

【Linux简单实用小命令001】CentOS 7、8的防火墙端口开放

吃透这些IPFS硬核知识点，日后抢头矿随时“弯道超车”

Hive分桶表

Spring中资源的加载原来是这么一回事啊！

JAVA 转换树结构数据

「正点原子NANO STM32F103开发板资料连载」第29章内存管理实验

小白怎么学Web前端开发如何成为技术达人

学Java编程还有前景吗如何才能拿到高薪