RDD彈性特性

2019-11-05 22:20:19 石頭渣渣

RDD作為彈性分佈式數據集，彈性具體體現在

自動進行內存和磁盤數據存儲的切換

Spark會優先把數據放到內存中，如果內存放不下，會放到磁盤裡面。當應用程序內存不足時，Spark應用程序將數據自動從內存存儲切換到磁盤存儲，以保證其高效運行。

基於Lineage（血統）的高效容錯機制

Lineage是基於Spark RDD的依賴關係來完成的，每個操作只關聯其父操作，各個分片的數據之間互不影響，出現錯誤只需要恢復單個Split的特定部分即可。

常規容錯有兩種方式：

1、數據檢查點

2、記錄數據的更新操作

Spark的RDD通過記錄數據更新的方式進行容錯，主要原因有：RDD是不可變的且Lazy；RDD的寫操作是粗粒度的。但是RDD的讀既可以是粗粒度的，也可以是細粒度的。

Task如果失敗，會自動進行特定次數的重試

默認重試次數為4次。TaskSchedulerImpl是底層任務調度接口TaskScheduler的實現，這些Schedulers從每個Stage中的DAGSchedler中獲取TaskSet，運行它們，嘗試是否有故障。DAGSchedler是高層調度，計算每個Job的Stage的DAG，然後提交Stage，用TaskSets的形式啟動底層TaskScheduler調度在集群中運行。

Task默認重試次數，位於org.apache.spark.internal.config#MAX_TASK_FAILURES

 private[spark] val MAX_TASK_FAILURES =
 ConfigBuilder("spark.task.maxFailures")
 .intConf
 .createWithDefault(4)

TaskSchedulerImpl源碼，位於org.apache.spark.scheduler.TaskSchedulerImpl

 private[spark] class TaskSchedulerImpl private[scheduler](
 val sc: SparkContext,
 val maxTaskFailures: Int,
 private[scheduler] val blacklistTrackerOpt: Option[BlacklistTracker],
 isLocal: Boolean = false)
 extends TaskScheduler with Logging {
 
 import TaskSchedulerImpl._
 
 def this(sc: SparkContext) = {
 this(
 sc,
 sc.conf.get(config.MAX_TASK_FAILURES),
 TaskSchedulerImpl.maybeCreateBlacklistTracker(sc))
 }

Stage如果失敗，會自動進行特定次數的重試

Stage對象可以跟蹤多個StageInfo。默認重試次數為4次，且可以直接運行計算失敗的階段，只計算失敗的數據分片。

Stage是Spark Job運行時具有相同邏輯功能和並行計算任務的一個基本單元。Stage中所有的任務都依賴同樣的Shuffle，每個DAG任務通過DAGScheduler在Stage的邊界處發生Shuffle形成Stage，然後DAGScheduler運行這些階段的拓撲排序。

每個Stage都可能是ShuffleMapStage，如果是ShuffleMapStage，則跟蹤每個輸出節點上輸出文件分區，任務結果會輸入其他的Stage,或者輸入一個ResultStage；如果是ResultStage，這個Stage的任務直接在這個RDD上運行計算這個Spark Action函數。

每個Stage會有firstJobId，度額定第一個提交Stage的Job，使用FIFO調度實，會使其前面的Job先計算或快速恢復。

ShuffleMapStage是DAG產生數據進行Shuffle的中間階段，發生在每次Shuffle操作之前，可能包含多個Pipelined操作；ResultStage階段捕獲函數在RDD分區上運行Action算子計算結果。

Stage源碼，位於org.apache.spark.scheduler.Stage

 private[scheduler] abstract class Stage(
 val id: Int,
 val rdd: RDD[_],
 val numTasks: Int,
 val parents: List[Stage],
 val firstJobId: Int,
 val callSite: CallSite)
 extends Logging {
 
 // partition的個數
 val numPartitions = rdd.partitions.length
 
 /** Set of jobs that this stage belongs to. */
 /** 屬於這個工作集的Stage */
 val jobIds = new HashSet[Int]
  

 /** The ID to use for the next new attempt for this stage. */
 /** 用於此Stage的下一個新attempt的標識ID */
 private var nextAttemptId: Int = 0
 
 val name: String = callSite.shortForm
 val details: String = callSite.longForm
 
 /**
 * Pointer to the [[StageInfo]] object for the most recent attempt. This needs to be initialized
 * here, before any attempts have actually been created, because the DAGScheduler uses this
 * StageInfo to tell SparkListeners when a job starts (which happens before any stage attempts
 * have been created).
 */
 /**
 * 最新的[StageInfo] object指針，需要被初始化
 * 任何attempts都是被創造出來的，因為DAGScheduler使用StageInfo
 * 告訴SparkListeners工作何時開始
 */
 private var _latestInfo: StageInfo = StageInfo.fromStage(this, nextAttemptId)
 
 /**
 * Set of stage attempt IDs that have failed with a FetchFailure. We keep track of these
 * failures in order to avoid endless retries if a stage keeps failing with a FetchFailure.
 * We keep track of each attempt ID that has failed to avoid recording duplicate failures if
 * multiple tasks from the same stage attempt fail (SPARK-5945).
 */
 /**
 * 設置stage attempy IDs 當失敗是可以讀取失敗信息
 * 跟蹤這些失敗，為了避免無休止地重複失敗
 * 跟蹤每一次attempt，以便避免記錄重複故障
 * 如果從同一stage窗體間多任務失敗
 */
 val fetchFailedAttemptIds = new HashSet[Int]
 
 private[scheduler] def clearFailures() : Unit = {
 fetchFailedAttemptIds.clear()
 }
 
 /** Creates a new attempt for this stage by creating a new StageInfo with a new attempt ID. */
 /** 在stage中創建一個新的attempt */ 

 def makeNewStageAttempt(
 numPartitionsToCompute: Int,
 taskLocalityPreferences: Seq[Seq[TaskLocation]] = Seq.empty): Unit = {
 val metrics = new TaskMetrics
 metrics.register(rdd.sparkContext)
 _latestInfo = StageInfo.fromStage(
 this, nextAttemptId, Some(numPartitionsToCompute), metrics, taskLocalityPreferences)
 nextAttemptId += 1
 }
 
 /** Returns the StageInfo for the most recent attempt for this stage. */
 /** 放回當前stage中最新的StageInfo */
 def latestInfo: StageInfo = _latestInfo
 
 override final def hashCode(): Int = id
 
 override final def equals(other: Any): Boolean = other match {
 case stage: Stage => stage != null && stage.id == id
 case _ => false
 }
 
 /** Returns the sequence of partition ids that are missing (i.e. needs to be computed). */
 /** 返回需要重新計算的分區標識的序列 */
 def findMissingPartitions(): Seq[Int]
 }

在Stage終止前允許Stage連續嘗試4次，位於org.apache.spark.scheduler.DAGScheduler#maxConsecutiveStageAttempts

 /** 在終止之前允許的連續嘗試次數 */
 private[scheduler] val maxConsecutiveStageAttempts =
 sc.getConf.getInt("spark.stage.maxConsecutiveAttempts",
 DAGScheduler.DEFAULT_MAX_CONSECUTIVE_STAGE_ATTEMPTS)
 private[spark] object DAGScheduler {
 // The time, in millis, to wait for fetch failure events to stop coming in after one is detected;
 // this is a simplistic way to avoid resubmitting tasks in the non-fetchable map stage one by one
 // as more failure events come in
 /**
 * 在毫秒級別，等待讀取失敗事件後就停止；這是一個避免重新提交任務的簡單方法，非讀取任務的map中更多失敗事件的到來
 */ 

 val RESUBMIT_TIMEOUT = 200
 
 // Number of consecutive stage attempts allowed before a stage is aborted
 /** 終止之前允許連續嘗試的次數 */
 val DEFAULT_MAX_CONSECUTIVE_STAGE_ATTEMPTS = 4
 }

checkpoint和persist（檢查點和持久化），可主動或被動觸發

checkpoint是對RDD進行標記，會產生一些列的文件，且所有所有父依賴都會被刪除，是整個依賴的重點。checkpoint是Lazy級別的。persist後RDD工作室每個工作節點都會把計算的分片結果保存在內存或者磁盤上，下一次對相同的RDD進行其他Action計算。就可以重用。

當RDD.iterator()被調用的時候，也就是計算該RDD中某個Partition的時候，會先去cacheManager獲取一個blockId,然後去BlockManager裡匹配Partition是否被checkpoint了。如果是，就不用計算該Partition，直接產品能夠checkPoint中讀取該Partition的所有records放入ArrayBuffer裡面。如果沒有被checkPoint過，將Partition計算出來，然後將其所有records放入到cache中。

總體來說，當RDD會被重複使用時，RDD需要cache。Spark自動監控每個節點緩存的使用情況，利用最近最少使用原則刪除老舊的數據，如果想手動刪除RDD，可以使用RDD.unpersist()方法。

RDD.iterator源碼，位於org.apache.spark.rdd.RDD#iterator

 final def iterator(split: Partition, context: TaskContext): Iterator[T] = { 

 // 判斷此RDD的持久戶登記是為為NONE，不進行持久化
 if (storageLevel != StorageLevel.NONE) {
 getOrCompute(split, context)
 } else {
 computeOrReadCheckpoint(split, context)
 }
 }

可以用不同的存儲級別存儲每一個被持久化的RDD。StorageLevel是控制存儲RDD的標誌，Spark的多個存儲級別意味著在內存利用率和CPU利用率間的不同平衡。推薦通過下面的過程選擇一個合適的存儲級別

如果RDD適合默認的存儲級別（MEMORY_ONLY），就選擇默認的存儲級別。因為這是CPU利用率最高的選項，會使RDD上的操作儘可能地塊。
如果不適合用默認級別，就選擇MEMOEY_ONLY_SER。選擇一個更快的序列化庫提高對象的空間使用率，任然能夠快速地訪問。
除非算子計算RDD話費較大或者需要過濾大量的數據，不要將RDD存儲在磁盤上，否則重複計算一個分區，就會和從磁盤上讀取數據一樣慢。
如果希望更快地恢復錯誤，可以利用replicated存儲機制，所有的存儲級別都可以通過replicated計算丟失的數據來支持完整的容錯。另外，replicated的數據能在RDD上繼續運行任務，而不需要重複計算丟失的數據。
在擁有大量內存的環境中或者多應用程序的環境中，Off_Heap具有如下優勢：Off_Heap運行多個執行者共享的Alluxio中的相同的內存池，限制減少GC，如果當個Executor崩潰，緩存的數據也不會丟失。

StorageLevel源碼，位於org.apache.spark.storage.StorageLevel

 val NONE = new StorageLevel(false, false, false, false)
 val DISK_ONLY = new StorageLevel(true, false, false, false)
 val DISK_ONLY_2 = new StorageLevel(true, false, false, false, 2)
 val MEMORY_ONLY = new StorageLevel(false, true, false, true)
 val MEMORY_ONLY_2 = new StorageLevel(false, true, false, true, 2)
 val MEMORY_ONLY_SER = new StorageLevel(false, true, false, false)
 val MEMORY_ONLY_SER_2 = new StorageLevel(false, true, false, false, 2)
 val MEMORY_AND_DISK = new StorageLevel(true, true, false, true)
 val MEMORY_AND_DISK_2 = new StorageLevel(true, true, false, true, 2)
 val MEMORY_AND_DISK_SER = new StorageLevel(true, true, false, false)
 val MEMORY_AND_DISK_SER_2 = new StorageLevel(true, true, false, false, 2)
 val OFF_HEAP = new StorageLevel(true, true, true, false, 1)

數據彈性調度，DAGScheduler、TaskScheduler和資源管理無關

Spark將執行模型醜行為通過的有向無環圖（DAG），可以將多個Stage的任務串聯或並行執行，從而不需要將Stage中間結果輸出到HDFS上，當發生節點運行故障時，可有其他可用節點代替該故障節點運行。

數據分片的高度彈性。

Spark 進行數據分片時，默認將數據放在內存彙總，如果內存放不下，一部分會放在磁盤上保存。

RDD的coalesce算子源碼，位於org.apache.spark.rdd.RDD#coalesce

 def coalesce(numPartitions: Int, shuffle: Boolean = false,
 partitionCoalescer: Option[PartitionCoalescer] = Option.empty)
 (implicit ord: Ordering[T] = null)
 : RDD[T] = withScope {
 require(numPartitions > 0, s"Number of partitions ($numPartitions) must be positive.")
 if (shuffle) {
 /** Distributes elements evenly across output partitions, starting from a random partition. */
 /** 從隨機分區開始，將元素均勻分佈在輸出分區上 */
 val distributePartition = (index: Int, items: Iterator[T]) => {
 var position = (new Random(index)).nextInt(numPartitions)
 items.map { t =>
 // Note that the hash code of the key will just be the key itself. The HashPartitioner
 // will mod it with the number of total partitions.
 position = position + 1
 (position, t)
 }
 } : Iterator[(Int, T)]
 
 // include a shuffle step so that our upstream tasks are still distributed
 // 包括一個Shuffle步驟，使上游任務仍然是分佈式的
 new CoalescedRDD(
 new ShuffledRDD[Int, T, T](mapPartitionsWithIndex(distributePartition),
 new HashPartitioner(numPartitions)),
 numPartitions,
 partitionCoalescer).values
 } else {
 new CoalescedRDD(this, numPartitions, partitionCoalescer)
 }
 }

如果在計算過程中，產生很多的數據碎片，這是產生的Partition可能會非常小，如果一個Partition非常小，每次都會消耗一個線程取處理，這是可能降低它的處理效率。可以考慮把許多個小的Partition合併成一個較大的Partition處理，會提高效率。

分享到:

閱讀更多 石頭渣渣 的文章

關鍵字: Spark 磁盤並行計算

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"