我希望自己刚开始就了解关于Spark的事情

佚名

2021-04-03 15:52:52

Jeremy Krinsley，Pam Wu，Daniel Melemed，Jarrod Parker，Linan Zheng

大约12个月前，我们决定将实体解决方案管道移至Scala / Spark Universe。这并非没有痛点。这是我们作为公司的第一笔主要推动力，目的是生产已经存在很长时间的实体解析原型。这也是我们团队第一次与Scala或Spark合作。

回顾一年，我想通过虫洞将数十个"学习时刻"传递给我以前的自我。

如果有机会，这里是传递：

知道你洗了什么

随机播放是指通过Spark集群的网络在Worker之间传输数据。它是需要重组数据的操作的中心，这被称为广泛依赖关系（请参阅广泛与狭窄依赖关系）。这种操作可能很快成为Spark应用程序的瓶颈。要正确使用Spark，您需要了解随机播放的内容，为此，必须了解您的数据。

数据倾斜导致随机混排

偏斜是数据分配中的不平衡。如果您无法说明数据的分布方式，则可能会发现Spark天真地将绝大多数行放在一个执行程序上，而将其余部分放在所有执行程序上。这是歪斜的，无论是由于引起内存不足错误，网络超时还是永无休止地以指数级方式运行的进程，都会杀死您的应用程序。

分布均匀的列上的分区

控制Spark随机播放的一种有效方法是智能地对数据进行分区。在右列（或一组列）上进行分区有助于平衡为了执行操作而必须跨集群网络映射的数据量。通常，对唯一ID进行分区是个不错的策略，但不要对稀疏填充的列或过度代表特定值的列进行分区。

当心默认分区

围绕要解决的事情建模分区的数量绝对至关重要。在我们的应用程序阶段中，我们一次在许多异构大小的数据集上并行运行转换，200个分区工作正常。

当我们处理数十亿个成对比较时，我们发现4-10k范围内的分区工作效率最高。

此外，如果您在单个服务器（或本地）上运行测试，则可以通过将数据重新划分为大小1来看到速度的显着提高。本地8或16核计算机，但是在运行CI的2核服务器上将无法完成。将数据组合到1个分区解决了我们的问题。

使用.par推动您的工作进入超速驾驶状态

虽然您可以依靠Spark来完成许多并行的繁重工作，但可以通过深思熟虑地使用Scala内置的.par功能（可在可迭代对象上使用）来进一步推动工作。我们的ER管道的初始步骤包括读取数十个异构数据集，并对每个数据集应用共享的转换管道。一个简单的datasets.par.foreach将我们的运行时间减少了一半。

当然，您只能在完全确定性的管道方面依靠它的用法，并且不存在竞争状况的风险。过度使用.par可能很快导致神秘地消失或覆盖数据。

连接高度易燃

到目前为止，联接是最大的改组违规者，Spark启用的规模扩大了sql联接的危险。如果联接双方的联接值重复，即使联接中等大小的数据也可能导致爆炸。这是我们Enigma必须特别警惕的地方，"唯一的"公共数据密钥可能会导致数百万行的联接成指数爆炸成十亿行的联接！

如果您的联接列有可能具有空值，则可能会出现严重的偏差。解决此问题的一个好方法是"盐化"您的null。这实质上意味着在运行联接之前将任意值（如uuid）预填充到空单元格中。

您的数据真实吗？

Spark中的操作分为转换和操作。转换是惰性操作，可让Spark在后台优化您的查询。他们将设置一个DataFrame进行更改（例如添加一列或将其连接到另一个列），但不会在这些计划上执行。这可能会导致令人惊讶的结果。例如，重要的是要记住，在执行操作之前，UDF的行为要没有具体值。例如，想象一下，使用Spark内置的

monotonically_increasing_id创建一个id列，然后尝试加入该列。如果您没有在生成这些ID之间进行任何操作（例如检查点检查），则您的值尚未实现。结果将是不确定的！

检查点Checkpoint是你的朋友

检查点基本上是将数据保存到磁盘并重新加载回磁盘的过程，这在Spark之外的其他任何地方都是多余的。这不仅会触发任何等待转换的动作，还会截断该对象的Spark查询计划。该动作不仅会显示在您的Spark UI中（从而指示您的工作确切位置），而且还有助于避免重新触发DAG中的潜在udf动作并节省资源，因为它有可能允许您释放否则将被缓存以供下游访问的内存。根据我们的经验，检查点数据也是数据调试取证和重新定位的重要来源。例如，我们的管道的培训数据是从应用程序中途生成的5亿行表中过滤掉的。

健全性通过监视检查您的运行时

Spark UI是您的朋友，Ganglia等监控工具也是您的朋友，它可以让您实时了解运行情况。 Yarn对Spark查询计划的描述可以立即传达您的意图是否与您的执行相吻合。是应该作为一个联接的东西实际上是许多小的联接的级联吗？

SparkUI还包含有关作业级别，阶段级别和执行者级别的信息。这意味着您可以快速查看去往每个分区或每个执行器的数据数量/卷是否有意义，并且可以查看工作的任何部分是否应该占数据的10％，但占用了90％的数据。时间。监视工具使您可以查看执行程序之间的总内存和CPU使用率，这对于资源规划和对失败作业的尸体剖析至关重要。

刚开始使用Spark时，我们在Yarn和Amazon的EMRFS上使用了独立集群。我们了解了收集Spark日志是一项艰巨的任务的艰辛方法。现在，我们很高兴使用Databricks，它可以为我们处理日志聚合的基本问题，但是，如果您要自己开发解决方案，那么像Kibana这样的日志聚合工具可能对于自省性至关重要。

错误消息不代表他们说什么

当问题真的出在其他地方时，Spark抱怨了一件事情就花了一段时间。

· "由对等方重置连接"通常意味着您偏斜了数据，并且一个特定的工作线程内存不足。

· "
java.net.SocketTimeoutException：写入超时"可能意味着您将分区数设置得太高，并且文件系统在处理Spark试图执行的同时写数时太慢。

· "序列化结果的总大小…大于
spark.driver.maxResultSize"可能意味着您将分区数设置得过高，并且结果不适用于特定工作人员。

· "列x不是表y的成员"：您运行了一半的管道，只是为了发现此sql连接错误。将运行时执行与验证一起放在前端，以避免对这些错误进行逆向工程。

· 有时您会收到一个真正的内存不足错误，但取证工作将是为了了解原因：是的，您可以增加单个工作人员的人数以使该问题消失，但是在执行此操作之前，您应该始终问自己： "数据分布合理吗？"

Scala / Spark CSV读取很脆弱

来自Python，得知在Scala / Spark中天真地读取CSV常常会导致无声的转义字符错误，这真是令人惊讶。场景：您有一个CSV并将它天真地读入spark：

val df = spark.read.option("header", "true").csv("quote-happy.csv")

您的DataFrame看起来很高兴-没有运行时异常，您可以在DataFrame上执行操作。但是，在对列进行了仔细的调试之后，您意识到在数据的某个点上，实际上所有内容都移到了一个或几个列上。事实证明，为了安全起见，您需要在读取中包含.option（" escape"，" ""）。

更好的建议：使用实木复合地板！

Parquet是你的朋友

开源文件格式旨在为读/写操作提供比未压缩CSV更高效率的数量级。

Parquet是" columnar"，因为它被设计为仅从Spark sql查询中指定的那些列中选择数据，并跳过不需要的那些列。此外，它在类似于sql的过滤操作上实现"谓词下推"操作，该操作仅对给定列中值的相关子集有效地运行查询。从未压缩的表格文件格式转换为镶木地板是提高Spark性能的最基本的操作之一。

如果您负责从另一种格式生成Parquet（例如，您正在使用PyArrow和Pandas进行某些大规模迁移），请注意，仅创建一个Parquet文件将带来该格式的主要优势。

结论

在使用Spark一年后，您就收到了一些零散的建议。希望我未来的自己已经发现了虫洞，并希望在您阅读本文时寄给我第二版。

最初于2018年11月8日发布在www.enigma.com。

(本文翻译自Enigma的文章《Things I Wish I'd Known About Spark When I Started (One Year Later Edition)》，参考：
https://medium.com/enigma-engineering/things-i-wish-id-known-about-spark-when-i-started-one-year-later-edition-d767430181ed)

腾讯游戏Spark More中文翻译：我全都要

奇异值分解与主成分分析，一文带你理解Spark分布式降维方法

Spark分布式机器学习源码分析：特征提取与转换

Spark Streaming 项目实战 (4)

华为对新西兰阻止该国运营商采用华为5G设备的问题发表回应

亲手搭建个spark 环境试试

Hadoop Spark：全面比拼（架构、性能、成本、安全）

Spark大数据处理框架入门-包括生态系统、运行流程以及部署方式

Spark 全套知识体系，终于搞到了

华为遭多国抵制，是封锁我高端通讯科技还是其技术威胁国家安全？

hadoop VS spark 性能原理分析

颜值和性能都很能打、扎达克SPARK台式机内存条评测

华为回应新西兰5G禁令：没有华为的5G 就像新西兰没有橄榄球一样

大疆Mavic Air无人机明日发布，价格感人

东西方文化结合除了结晶还有炸弹，《失落星球3》触雷暴死启示录

以非技术方式解释（Py）Spark

自定义Spark Partitioner提升es-hadoop Bulk效率

分布式计算框架spark

DOTA2：DPL-CDA首周战罢，EHOME第一LGD第二

知道你洗了什么

数据倾斜导致随机混排

分布均匀的列上的分区

当心默认分区

使用.par推动您的工作进入超速驾驶状态

连接高度易燃

您的数据真实吗？

检查点Checkpoint是你的朋友

健全性通过监视检查您的运行时

错误消息不代表他们说什么

Scala / Spark CSV读取很脆弱

Parquet是你的朋友

结论

相關文章:

腾讯游戏Spark More中文翻译：我全都要

奇异值分解与主成分分析，一文带你理解Spark分布式降维方法

Spark分布式机器学习源码分析：特征提取与转换

Spark Streaming 项目实战 (4)

华为对新西兰阻止该国运营商采用华为5G设备的问题发表回应

亲手搭建个spark 环境试试

Hadoop Spark：全面比拼（架构、性能、成本、安全）

Spark大数据处理框架入门-包括生态系统、运行流程以及部署方式

Spark 全套知识体系，终于搞到了

华为遭多国抵制，是封锁我高端通讯科技还是其技术威胁国家安全？

hadoop VS spark 性能原理分析

颜值和性能都很能打、扎达克SPARK台式机内存条 评测

华为回应新西兰5G禁令：没有华为的5G 就像新西兰没有橄榄球一样

大疆Mavic Air无人机明日发布，价格感人

东西方文化结合除了结晶还有炸弹，《失落星球3》触雷暴死启示录

以非技术方式解释（Py）Spark

自定义Spark Partitioner提升es-hadoop Bulk效率

分布式计算框架spark

DOTA2：DPL-CDA首周战罢，EHOME第一LGD第二

Niantic董事会成员Megan Quinn将任职首席运营官

Delta Lake，让你从复杂的 Lambda 架构中解放出来

Spark分布式机器学习源码分析：Kmeans族聚类

sprak中的RDD

spark——rdd常用的转化和行动操作

什么是最小可行性数据产品（MVP）？如何用它做机器学习？

还在为学习Python没有路线发愁吗？

从0到1进行Spark history分析

学透这5个SQL项目，小伙伴都能变数据库专家

Spark-submit之后，到底发生了什么？你有踏足过这个领域吗？

自学大数据需要学哪些内容？

更具个性化的高端内存？ZADAK SPARK 测评报告

影音+游戏两种模式自由切换，蓝牙耳机还能这样玩

能源智能化的未来——智慧电厂如何建设

大数据框架对比：Hadoop、Storm、Samza、Spark 和 Flink[转]

传音TECNO Spark Power 2发布，售9999卢比

Spark PK Hadoop 谁是赢家？

唯品会实时平台架构-Flink、Spark、Storm

大数据学习路线图【瞧一瞧，看一看了】

Spark应用的结构

没有基础可以学习大数据吗？零基础怎么学习大数据？让专家来教你

《精灵宝可梦Go》开发公司Niantic迎来新COO

Apache Spark：如何选择正确的数据抽象？

跨界车企蔚来和零跑电机技术哪家强

Spark Streaming，Flink，Storm，Kafka和Samza：选择流处理框架

万字详文：腾讯研究员详解 Spark 部署与工作原理

像原设计者一样深入理解 Spark

深度预警:Spark运行原理

30分钟理解Spark的基本原理

Spark 3.0 新特性抢先看

图计算框架Giraph 和 GraphX比较

潜逃压力过大暴瘦40多斤，一涉黑A级通缉犯在河北投案自首

当我们在谈 SaaS 的时候，在谈什么？

合同诈骗的类型有哪些？企业无力偿还借款是否构成合同诈骗罪？

5月西安招聘会时间安排来了！找工作的别错过

刚刚工作的毕业生，一个月只有2000多，是不是太少了？

全球闹「美元荒」带动稳定币需求暴增！以太坊交易量创近两年新高

“帮助当地居民解决用水难题”-今日头条-手机光明网

灌篮高手无水印壁纸，每一张都是回忆

通辽蓝天救援队成功解救辽河公园水上被困群众

5月6日·武汉要闻及抗击肺炎快报

肖副省长等省市领导到孝感市楚澴中学调研九年级复学暨疫情防控常态化工作

相声界的颜值担当张云雷称号大揭秘

美国百年薅羊毛攻略

《全职高手》：一口气刷了10集，对杨洋路转粉了

共同承担责任！Rookie谈BP问题：输了是我们打得太臭

LOL"中韩对抗赛"遭选手反对？Zoom直言不想打，Doinb的回答太真实

颜值和性能都很能打、扎达克SPARK台式机内存条评测

应急科普丨“五一” 期间气温回升谨防森林火灾隐患