11.14 Spark——诊断内存消耗

2018-11-14 08:23:26 SNAP視頻

内存都花费在哪里？

（1）每个JAVA对象，。都有一个对象头，会占用16个字节，主要包括一些对象的元信息，。比如指向它的类的指针；。如果一个对象本身很小，比如就包括一个int类型的field，那么它的对象头实际上比对象自己还要大。
（2）java的String对象，。会比它内部的原始数据，多出40个字节，，因为它内部使用char数组来保存内部的字符序列的，并且还得保存诸如数组长度之类的信息。而且，因为String使用的是UTF-8编码，所以每个字符会占用2个字节，。比如：包含10个字符的String，会占用60个字节。
（3）java的集合类型，比如HashMap和LinkedList，内部使用的是链表数据结构，所以对链表中的每一个数据，都使用了Entry 对象来包装。 Entry对象不光有对象头，还有指向下一个Entry的指针，通常占用8个字节。
（4）元素类型为原始数据类型（如 int）的集合，内部通常会使用原始数据类型的包装类型。比如integer 来存储元素。

如何判断你的程序消耗了多少内存？

1、首先，自己设置RDD的并行度，有两种方式：（1）在parallelize(),textFile()等方法中，传入第二个参数，设置RDD的task/partition的数量；（2）第二种方式，用SparkConf.set()方法，设置一个参数，spark.default.parallelism ，可以统一设置这个application所有RDD的partition数量。（简单说，就是指定partition的数量）
2、其次，在程序中，将RDD cache 到内存中，调用RDD.cache()方法即可
3、最后，观察Driver的 log，你会发现类似于："INFO BlockManagerMasterActor......(size:171.5KB,free:332 MB)"的日志信息，这就显示了每个partition 占用了多少内存。
4、将这个内存信息乘以partition 的数量，即可得出RDD的内存占用量。

设置日志级别：

 Logger.getLogger("org.apache.spark").setLevel(Level.INFO);

分享到:

閱讀更多 SNAP視頻 的文章

關鍵字: 数据结构 Spark 内部

Spark-local本地环境搭建

Spark SQL

Spark 网页式开发（五）

Spark SQL 使用反射推断模式

Spark SQL简介

Spark 安装教程

Spark RDD介绍

Spark 简介与特征

Spark 网页式开发（二）

Spark 网页式开发（一）

spark-submit之后，spark集群内发生了什么？让我们一探究竟

03.02 Spark+Zookeeper搭建高可用Spark集群

Spark SQL常见4种数据源详解

Spark 机器学习四大类算法

Spark for Java: SparkCore RDD Value类型方法案例

Spark SQL概述

12.21 Spark RDD 概念以及核心原理

Spark Troubleshooting（故障排除）

Spark 数据倾斜解决方案

Spark JVM调优

Spark Shuffle调优

Spark 算子调优

Spark 常规性能调优

Spark BlockManager解析

Spark 内存管理

Spark-Core：调度

大数据干货分享：Spark Streaming 数据清理机制

Spark 核心概念

Spark Streaming状态管理函数的选择比较

hive on spark,spark sql 对比测试结果相差很大

Spark，从入门到精通

Hello Spark!

Spark Standalone集群模式部署（Window）及其Python开发环境搭建

Spark-关于Shuffle

Spark 处理大数据的异常解决方案汇总

Spark Streaming VS Flink

Spark Graphx的API操作

Spark SQL与DataFrame详解以及使用

Spark 弹性分布式数据集（RDD）

Spark SQL支持的功能测试

Spark Shuffle 过程

spark-sql对多层级parquet支持

spark hadoop数据倾斜问题

Spark Runtime概述

Spark Streaming的容错

Spark 读取单个文本文件速度很慢解决方法

大数据实战：spark DataFrame的union函数使用时的坑

刚刚工作的毕业生，一个月只有2000多，是不是太少了？

刚刚:刚刚工作的毕业生，一个月只有2000多，是不是太少了？根据你城市消费水平来看啊，还有你从事的工作，假如你在二三线城市做一份事业单位或者是编制类的工作，薪资水平是随着你工作年限逐年增长的，而且在年终也有很多福利补贴待遇等等，算下来收入也是可观的，再举一个例:-毕业生 2000