PDF+视频总共2.2G的Spark,让你花费15个小时即可掌握,你敢信?

spark介绍

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是--Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。

PDF+视频总共2.2G的Spark,让你花费15个小时即可掌握,你敢信?

前言

Apache Spark是一个开源集群运算框架,相对于Hadoop的MapReduce会在运行完工作后将中介数据存放到磁盘中,Spark使用了存储器内运算技术,能在数据尚未写入硬盘时即在存储器内分析运算。

Spark 在存储器内运行程序的运算速度能做到比 Hadoop MapReduce 的运算速度快上 100 倍,即便是运行程序于硬盘时,Spark 也能快上 10 倍速度。Spark 允许用户将数据加载至集群存储器,并多次对其进行查询,非常适合用于机器学习算法。

使用 Spark 需要搭配集群管理员和分布式存储系统。Spark 支持独立模式(本地 Spark 集群)、Hadoop YARN 或 Apache Mesos 的集群管理。在分布式存储方面,Spark 可以和 Alluxio, HDFS、 Cassandra 、OpenStack Swift 和 Amazon S3 等接口搭载。 Spark 也支持伪分布式(pseudo-distributed)本地模式,不过通常只用于开发或测试时以本机文件系统取代分布式存储系统。在这样的情况下,Spark 仅在一台机器上使用每个 CPU 核心运行程序。

spark特点

首先,高级 API 剥离了对集群本身的关注,Spark 应用开发者可以专注于应用所要做的计算本身。

其次,Spark 很快,支持交互式计算和复杂算法。

最后,Spark 是一个通用引擎,可用它来完成各种各样的运算,包括 SQL 查询、文本处理、机器学习等,而在 Spark 出现之前,我们一般需要学习各种各样的引擎来分别处理这些需求。

Spark从入门到精通的学习路线

spark-core、复习hadoop生态、梳理术语、hadoopRDD 源码分析

spark-core、wordcount案例源码分析、图解

spark-core、集合操作API、pvuv分析、RDD源码分析

spark-core、聚合计算API、combineByKey、分区调优

spark-core、二次排序、分组取TopN、算子综合应用

spark-core、集群框架图解、角色功能介绍、官网学习 、搭建

spark-core、history服务、standaloneHA、资源调度参数

spark-core、基于yarn的集群搭建、配置、资源调度参数、优化jars

spark-core-源码、RpcEnv、standaloneMaster启动分析

spark-core-源码、Worker启动、sparksubmit提交、Driver启动

spark-core-源码、Application注册、Executor资源申请

spark-core-源码、sparkContext、DAGScheduler、stage划分

spark-core-源码、TaskScheduler、Executor运行Task、SparkEnv

spark-core-源码、MemoryManager、BlockManager

spark-core-源码、Dependency、SortShuffleManager

spark-core-源码、SortShuffleWriter、内存缓冲区buffer

spark-core-源码、SortShuffleWriter、内存缓冲区buffer

spark-core-源码、UnsafeShuffleWriter、Tungsten、Unsafe、堆外

spark-core-源码、ShuffleReader、Tracker、Scheduler完整调度

spark-core-源码、RDD持久化、检查点、广播变量、累加器

spark-core-源码、RDD持久化、检查点、广播变量、累加器

spark-sql、大数据中的SQL组成原理

spark-sql、datafram到dataset开发

spark-sql、整合hive的metastore搭建企业级数仓1

spark-sql、整合hive的metastore搭建企业级数仓2

spark-sql、复杂sql、函数、自定义函数、开窗over函数、OLAP

spark-sql-源码、sql解析、dataset到rdd的执行计划

spark-sql-源码、antlr4的sql解析、AST语法树的逻辑到物理转换

spark-sql-源码、逻辑计划、优化器、物理计划、转换RDD

spark-streaming、流式计算之微批计算原理及standalone

spark-streaming、api、ha、检查点、窗口等机制

spark-streaming、整合MQ-kafka开发

spark-streaming、源码分析、流式微批任务的调度原理

spark思维导图


PDF+视频总共2.2G的Spark,让你花费15个小时即可掌握,你敢信?

Spark 2.2G学习视频


PDF+视频总共2.2G的Spark,让你花费15个小时即可掌握,你敢信?


PDF+视频总共2.2G的Spark,让你花费15个小时即可掌握,你敢信?

另外还有SparkPDF技术文档赠送


PDF+视频总共2.2G的Spark,让你花费15个小时即可掌握,你敢信?

需要2.2G学习视频和PDF技术文档的小伙伴,就可以转发关注小编,私信小编“文档”来得到获取方式吧~~~

PDF+视频总共2.2G的Spark,让你花费15个小时即可掌握,你敢信?



分享到:


相關文章: