在2014年以後,大數據領域內掀起了一股強勁的Apache Spark學習和應用的浪潮。Apache Spark以內存計算為核心,以其通用,快速和完整的生態圈等特點,正在逐步取代速度較慢的hadoop,越來越多的應用在了企業中。ADHOC SQL查詢,流計算,數據挖掘,圖計算,R語言,一個又一個功能強大的組件使得越來越多的spark愛好者和企業界意識到,只要掌握一門spark技術,就能夠為大多數的企業遇到的大數據的應用場景提供明顯的加速。
學習Spark,成為一名合格的Spark工程師,使得每個致力於大數據行業的人,不僅能得到技術上的提升,也為個人的薪資帶來了巨大的提升空間。
本教程從最基礎的Spark介紹開始,介紹Spark的各種部署模式以及動手進行搭建,然後逐步介紹其中RDD的計算模型,創建和常用的操作,以及其中一些分佈式計算,RDD持久化,容錯,shuffle機制,共享變量等內容。
而後在RDD的基礎上,講解SparkSQL的子框架,介紹dataframe,使用場景,創建方法,對parquet等文件格式和不同類型的數據源的支持,對hive的兼容和整合,以及對傳統數據庫的JDBC的支持,和thriftserver的部署等。再配合一些實戰動手的實驗來加深對dataframe的理解和應用。
然後,講解sparkstreaming的子框架,介紹DSTREAM的概念,使用場景,數據源,操作,容錯,性能調優,還有與kafka的集成。
最後以2個項目來實際帶學習者到開發環境中去動手開發,調試,一些基於SparkSQL,SparkStreaming,kafka的實戰項目,加深大家對Spark應用開發的理解。其中簡化了企業裡的實際業務邏輯,加強對錯誤調試的分析和思路上的啟發,使得學習者更容易掌握Spark的開發技巧。
課程講師12年開始從事hadoop領域技術研究,14年專職從事spark技術研究與開發,目前在企業裡從事spark相關工作,同時負責企業的內訓,主講spark部分。在14年夏做為Hadoop培訓講師,曾參與過廣州匯豐銀行的高級Hadoop課程(Hbase,Spark)培訓,並與該企業中的一些學員互留聯繫方式並保持長期技術上的聯繫。曾參與EASYHADOOP社區14年11月活動,演講《spark介紹及SPARKSQL應用》,獲得學員和與會者的好評並有長期的技術層面聯繫。
教程試看及完整大綱目錄如下,對IT編程、大數據、數據分析、人工智能感興趣的朋友們可以訪問北風網官網或關注小編了解更多哦!也可以加群131322610一起分享學習跟多開發經驗資料。
<table><tbody>內容
培訓大綱
實戰
第一講_spark簡介
Ø spark介紹
Ø Spark與hadoop的比較
Ø Spark的使用場景介紹
Ø spark軟件棧
Ø 動手搭建一個最簡單的spark集群
Ø 運行例子程序SparkPi
實戰:單節點的spark部署和運行SparkPi
第二講_spark部署模式介紹
Ø Spark部署模式OverView
Ø Spark啟動過程詳解
Ø Spark集群部署之Standalone
Ø Spark集群部署之Spark on Yarn
Ø Spark集群部署之Spark on Mesos
實戰:完全分佈式的spark
standalone和spark on yarn模式的動手實戰
第三講_spark集群硬件,開發語言和java版本的選擇
Ø spark集群硬件配置
Ø spark開發的語言選擇
Ø Java版本的選擇
第四講_spark的rdd及其操作介紹
Ø RDD介紹及創建
Ø RDD的操作
Ø RDD函數傳遞
Ø 閉包
Ø shuffle介紹
Ø RDD的持久化
Ø 共享變量
Ø 常用transformation和action的API介紹
Ø 在spark-shell裡動手實戰wordcount及常用API
Ø Scala介紹
實戰:動手在Sparkshell中編寫wordcount和linecount,以及動手實驗常用的RDD操作。
第五講_SparkSQL及DataFrame講解
Ø SparkSQL簡介
Ø SparkSQL之DataframeSave&Load
Ø SparkSQL之Dataframe介紹及創建
Ø SparkSQL之DataframeParquet
Ø SparkSQL之DataframeJson&HiveTables
Ø SparkSQL之DataframeJDBC&PerformanceTuning&Cli&ThriftServer
實戰:Sparksql的Dataframe創建,配置,SparkSQL連接hive,及ThriftServer.
第六講_SparkStreaming和DStream介紹
Ø SparkStreaming的demo和介紹
Ø DStream和DataSource
Ø DStream的Transformation和output
Ø DStream持久化,checkpoint,以及和DataFrame的交互
Ø SparkStreaming應用的部署和監控
1) Spark Streaming應用的監控與分析
第七講_SparkStreaming性能調優,容錯和Kafka集成
Ø SparkStreaming的性能調優
Ø SparkStreaming的容錯
Ø SparkStreaming與Kafka的集成
第八講__SparkSQL項目實戰之文本比對
Ø 開發SparkSQL應用的雛形和定義dataframe
Ø 數據清洗
Ø 業務邏輯的實現和保存數據處理結果
Ø 開發SparkSQL應用調度程序,實現多文本並行
Ø SparkSQL應用的參數化,提高可配置性
Ø SparkSQL應用部署到集群中,調試
Ø 編寫簡單的shell腳本,調試及查閱JIRA
Ø 集群和SparkSQL應用參數的調整
Ø SparkSQL應用schedular模式介紹和性能調優
實戰:在spark上開發一個文本比對的SparkSQL的應用
第九講_SparkStreaming+
SparkSQL+Kafka
項目實戰開發
Ø kafka簡介,安裝和集群搭建
Ø kafka實戰
Ø 多組件部署模式的設計與思考
Ø SparkStreaming+kafka應用運行日誌的分析
Ø 開發基於direct模式的SparkStreaming應用
Ø SparkStreaming應用的參數設置
Ø SparkStreaming應用部署調試
Ø SparkStreaming與SparkSQL結合
Ø Kafka集群升級與connect的探索
Ø 開發自定義的Kafka producer,完成整個應用
閱讀更多 小北IT 的文章