分布式一致性算法-CRDT二

2018-06-21 12:24:49 Gravity地心

Gravity團隊

在本系列的第一部分中，我們考察了order理論的基礎知識，以便探究 join semi-lattice 的概念，這是Convergent CRDT（或CvRDT）的基礎。如果您還沒有閱讀過上篇文章，我強烈建議在繼續本文之前閱讀上一篇，因為我們將在此基礎上繼續。在這篇文章中，我們將詳細介紹CvRDTs，在實現一個簡單的增長分佈計數器示例之前，首先介紹它們的工作原理。

Convergent CRDTs

Convergent CRDT（或CvRDT）是複製的數據結構，合併後會趨於一個值。我們需要牢記 CvRDT 的兩個基本組成部分。首先，我們有state.我們將所有可能的狀態視為一個集合的元素。對於 CvRDT，該集合必須按某種二元關係排序。例如，想象一下，我們的狀態是一個計數器。簡單來看，可以將我們計數器的所有可能狀態視為所有整數，並且我們的順序小於或等於這些整數。

CvRDT 的另一個關鍵組成是 merge() 函數。CvRDTs 的全部重點是複製節點之間的狀態。我們需要一個合併函數來最終保持該狀態同步。對於 CvRDT，合併函數充當我們秩序的 join 。

如果我們看一些例子就會更清楚。回想一下，對於全部 order，任何兩個元素的 join 將成為這兩個元素中的一個。對於小於或等於整數，join 總是兩個整數中較大的一個。這意味著相應的合併函數將是 max() 。這裡有一些例子：

merge(1,3)=3

merge(9,5)=9

merge(8,8)=8

在每個示例中，兩個整數之間的最大值是這些整數的最小上限值。

現在想象一下，我們的狀態集不是整數，而是矢量時鐘時間戳。在這種情況下，我們可以使用座標最大值作為我們的合併函數。這裡有一些例子：

merge((1,0,0),(0,1,1))=(1,1,1)

merge((0,0,0),(2,0,2))=(2,0,2)

merge((5,3,1),(1,9,2))=(5,9,2)

最後，思考一下我們的狀態集合是 location 並且我們的 order 是located-in。在這種情況下，我們可以用“least-common-enclosing-location”作為我們的合併函數。通過least-common-enclosing-location，我只是指包含合併的兩個位置的最小位置。這裡有一些例子：

merge(Seattle,Mumbai)=Earth

merge(Bronx,NYC)=NYC

merge(Mumbai,Delhi)=India

如果這一點不清楚，也不要擔心。我們將繼續以下這些相同的例子。但要記住的重要一點是，在定義 CvRDT 時，我們必須確定一組 state，一個關係 ≤ 表示該集合的順序，以及一個合併函數，該函數就像該順序的 join 一樣。

Systems

在得到 CvRDTs 之前，引入一些概念將有助於我們更好地理解它們。首先，我們稱一組可用的states 為 System 。下面的例子，是我們到目前為止討論過的 state：

[2,5,7]

[Seattle,Delhi,Mumbai]

[(0,0,1),(1,0,0),(1,1,0)]

區分當前狀態集（我稱之為Systems）和 background sets 很重要。在上面的第一個例子中，我們的系統由三個整數組成，2 , 5 和 7 。我們的 background sets是所有整數的集合。為了清楚這一點，我將從現在開始討論 Systems 和 background sets。

以下是一個有趣的事實：對於具有合併操作的任何 states 系統，為系統中的所有對定義充當 join，我們可以繪製 join semi-lettice。讓我們依次看看我們的三個示例系統。對於三個整數的系統，我們可以畫出下圖：

回想一下，對於圖中的任何兩個元素成為 join semi-lattice，我們都可以找到它們兩個的最小值。在這種情況下，任何兩個元素可以通過小於或等於直接相關，並且 join 只是兩者中的最大值。對於一個更有趣的例子，我們需要看看分序，就像 located-in 一樣。所以我們來看看三個位置的系統。如果您單獨繪製了這三個位置的圖表，它將如下所示：

這些元素在定位方面都不能直接相互比較。所以如果這個系統也是整個 background sets，那麼我們就不能畫出一個 semi-lattice 。幸運的是，我們在這裡設置的background sets是一組更大的locations（如第一部分所定義）。所以我們可以通過逐步地取元素對的 join 來把這個圖轉換成semi-lattice 。我們稍後會強調，我們接受這些連接的順序並不重要。因此，我們開始在圖表中添加孟買和德里的連接：

注意，我們正在從 background sets 中獲取一個原本不屬於我們系統的部分，並將其添加到我們的圖中。如印度，我標記了它不同的顏色，以表明它實際上不是我們系統的一部分。

現在我們繼續選擇另一對，西雅圖和孟買。Join 是地球：

最後，讓我們 join 西雅圖和印度。好吧，這又是地球，這意味著我們不再在圖上增加任何locations，但我們可以添加從印度到地球的新箭頭：

現在，如果仔細觀察我們的圖表，就會發現無論選擇哪兩個元素，都可以在圖表中找到 join。這是因為地球是圖中所有其他東西的最大值，所以我們至少可以達到上限。

只要我們的 background sets 和我們的≤關係形成 join semi-lattice，那麼對於任何系統，我們總是可以通過從 background sets 選取元素通過 join 來繪製相應的 semi-lattice 。這引出我們接下來一個重要概念。我們將系統的 Value 定義為相應 semi-lattice 的最大值。以下是一些考慮系統 Value 的例子：

Value([2,5,7])=7

Value([Seattle,Delhi,Mumbai])=Earth

Value([(0,0,1),(1,0,0),(1,1,0)])=(1,1,1)

關鍵在於系統中的 states 在合併它們時彙集成系統的 value 。設想從系統中隨機選擇一對狀態併合並它們，每次將合併結果添加到系統中。這個過程最終應該將 Value 加到系統中。現在，每個合併都起到 join 作用。join 的屬性確保了兩件重要的事情：

1.合併順序無關緊要。這由 join 的結合性和交換性來保證。

2.不管重複多少次特定的合併都不重要。這由 join 的冪等性保證。

Implementing a CvRDT

我們現在有實現首個 CvRDT 所需的一切條件。將系統與節點網絡相對應，每個節點都包含其自己的全局 state 版本。如，這是一個與上面的整數系統相對應的網絡：

如果我們的節點隨機地傳遞 states，合併任何進入的 states，它們都會趨向於系統的 value。在這種情況下，我們系統的 value 是 5.這是因為 5 是系統中三種狀態的最大值。當我們從節點到節點之間傳遞整數時，我們通過將狀態更新為本地整數和傳入整數的最大值來執行合併。下面的動畫應該有助於明確這一點：

CvRDT 的偉大之處在於允許我們抽象出這些網絡/系統細節。我們可以來實施一個計數器來說明這個想法。

我們的計數器有一個簡單的界面：

increment()：增加計數器

value()：獲取計數器的值

我們希望將這個計數器複製到三個節點上。其思想是，用戶能夠與這三個節點中的任何一個進行交互，但只要它們仍然連接到同一個節點，就會看到一致的結果。此外，我們需要這些節點隨著時間的推移保持同步（最終）。

抽象地說，當用戶在任何三個節點上調用 increment()，它都應該增加我們系統的 value 。這是因為我們的複製計數器跟蹤所有用戶的所有 increment() 調用。這說明我們可以繪製系統如下圖，對系統作為一個整體進行抽象地調用（即使實際上它們總是對特定節點進行調用）：

我們的系統的起始值是 0.現在想象一下，increment()在節點 X 上調用一次，在節點 Y 上調用兩次，在節點 Z 上調用三次。該值應該等於 6。但是請記住關於系統 value 的重要一點：該值不一定存在於任何一個節點上。相反，它是我們 join semi-lattice 的最大值。也就是說，這是我們合併收斂的價值。

其主旨是，value 將最終反映在所有節點。除了傳遞狀態之外，不需要任何協調。合併順序無關緊要。而且我們重複特定合併的次數也不重要。這意味著我們就可以在方便的時候傳遞狀態。沒有必要追溯到過去發生的合併或發生的順序。

試著執行我們的計數器。我們將從所謂的 G-counter 開始，也就是增長計數器。我們的界面只是 increment() 和 value() 。回想一下，我們需要兩件事情：

1. states 類型 S 按某種≤關係排序。

2. merge() 操作，作為我們的 order

~~join~~

每個節點將有一個 value，我們將稱之為 local state，表示該節點對系統當前 value 的記錄。我們需要能夠通過該節點上的 increment()調用來更新 local state 。而且我們還需要能夠通過該節點上的 value() 調用讀取 local state。首先，我們將簡單地將本地狀態表示為一個整數。

現在我們需要考慮 merge()。請記住，節點可以隨時從另一個節點接收 states 。它從哪個節點接收並不重要，它是否已經被接收到相同的狀態，也不重要。無論如何，我們的 local state 應該總是趨於系統的 value，在本例中，這個值就是系統中任何地方調用的 increment() 的總次數。

merge() 的一個簡單實現是將傳入狀態的值添加到我們的本地值中。但這種做法肯定會失敗。問題是添加不是冪等的。如果我們合併5次，我們會繼續在當地總計中加5。這意味著我們很快就會超越系統的價值。merge() 的這種實現不作為 join 。

在我們上一篇文章中，我們看到整數上的 max() 充當 join 。因此，另一種簡單的做法是考慮到達的state和我們 local state。但想象下面的歷史：

1.節點1增加3次。

2.節點2增加2次。

3.節點3增加1次。

在所有這些調用之後，系統的價值是什麼？由於該值是我們網絡中任何地方被調用的增量總次數，因此這裡的答案看起來應該是 6.下面的動畫展示瞭如果我們在整數上使用 max() 作為我們的合併函數會發生什麼：

從我們的系統中的三個整數開始：3, 2

和 1.不管我們在任意隨機選擇的對之間調用 max() 多少次，我們都不會得到高於3的值。但是，我們應該彙集的值是 6。我們需要再試一次。

事實證明，我們需要區分作為 semi-lattice 的系統 value 和與該值對應的人類可讀值。通過尋找一個更好的方法來表示我們的計數器狀態，而不是簡單地使用整數，這是一種借鑑矢量時鐘的方法，這種區別將更加清晰。

我們不使用整數作為 local state，而是使用整數向量。向量中的每個元素都對應一個節點。因此，在我們的最後一個例子中，我們將從以下分佈的 local state 開始：

X: (3, 0, 0)

Y: (0, 2, 0)

Z: (0, 0, 1)

這一次，為了合併傳入的值，我們採用了座標最大值。我們將 value()作為向量中所有元素的總和。以下動畫演示了在這種情況下會發生什麼情況：

每個節點逐漸獲取其他節點的最新值。在這裡，取一個座標的最大值實際上是取這個座標的最新值。我們的系統的價值是

（3,2,1），並且在一個節點上調用value() 的人類可讀結果可以達到 6。

現在我們已經有了一個工作實現，讓我們來定義我們的接口操作：

increment()：遞增該節點對應的向量索引處的整數。

value() ：向量中的所有整數求和。

merge（incoming_state）：用 local state 的最大座標值和 incoming_state 代替 local state。

我們來畫一下剛才考慮的系統 semi-lattice ：

我們看到對應於系統值的向量是 semi-lattice 的最大值。我們的 merge() 函數完全對應於這些元素中的任何兩個元素上的 join 操作。這些連接向上收斂。

您可以親自驗證，我們採用哪個順序並不重要。如果我們多次合併相同的值，這也無關緊要。實質上，我們忘記了圖中較低的值，並且要麼保持我們的位置，要麼移動到更高的位置。

如果你希望看到代碼，下面是一個在 Python 中實現為簡單可變數據結構的 G-Counter 示例（本地狀態表示為一個名為 state_list 的整數列表）：

class GCounter:

def __init__(self, nodeId, state_list):

self.nodeId = nodeId

self.state_list = state_list

def value(self):

return sum(self.state_list)

def increment(self):

self.state_list[self.nodeId] += 1

def merge(self, incoming):

for idx in range(0, len(self.state_list)):

self.state_list[idx] = max(self.state_list[idx],

incoming.state_list[idx])

Conclusion

還有許多其他類型的數據結構可以建模為收斂CRDT。您可以擁有計數器，集，映射和圖表。在每種情況下，我們都需要先定義一個 value() 方法和 merge() 方法。也許在未來的文章中，我們將看看如何實現其中的一些。

同時，如果您想更深入地瞭解 CRDT 背後的理論（包括基於操作的 CRDT，我們還沒有討論過），請查看收斂性和交換性複製數據類型的綜合研究 Marc Shapiro，Nuno Preguiça，Carlos Baquero和Marek Zawirski。

分享到:

閱讀更多 Gravity地心 的文章

關鍵字: 數據結構 Python 分佈式

分佈式——吞吐量巨強、Hbase的承載者 LSMT

[分佈式] 調用鏈追蹤

[分佈式] 分佈式安全

[分佈式] 分佈式事務的四種解決方案

[分佈式] 基於Netty及websocket應用與總結

[分佈式] 分佈式ID生成器解決方案

「分佈式」自定義RPC框架-基於JAVA實現

「分佈式」分佈式系統的負載均衡

「分佈式」分佈式系統設計策略

「分佈式」 redis集群腦裂及解決方案

「分佈式」 Lease機制

「分佈式」 Paxos算法詳解

「分佈式」分佈式一致性算法應用場景

開發三年對JVM、分佈式、高併發掌握的Java程序員在北京值多少K？

一文簡述服務器架構的演變過程：集群—分佈式—微服務

疫情之下想要砍下BATJ的offer，怎能不會高併發、多線程、分佈式

03.03 2020最新出爐BAT架構實戰文檔：多線程與高併發+分佈式+微服務

2020預備春招BAT面試題彙總：MyBatis +微服務+Spring+分佈式

高併發之API接口，分佈式，防刷限流，如何做？

12.28 高併發之API接口，分佈式，防刷限流，如何做？

Java程序員2020學習方向，高併發，分佈式，Redis，微服務

11.26 面試官問：集群部署時，分佈式 session 如何實現？

瞭解四種軟件架構：Serverless、微服務、分佈式、單體

「RPC」「分佈式」使用Hprose實現PHP與Python的遠程過程調用

11.12 從零開始學架構，每天花四小時學spring全家桶、高併發、分佈式..

併發、分佈式、SQL編程中你遇到多少鎖？距離高級工程師只差一步

「分佈式」看完這個動畫秒懂 Raft 算法

08.06 2019年阿里Java面試必問：JVM與性能優化+Redis+設計模式+分佈式

分佈式、高併發、多線程，到底有什麼區別？

分佈式 ID 生成策略

五面螞蟻金服Java研發崗:數據結構+Redis+分佈式+微服務

最新阿里java開發崗四面：分佈式+性能調優+鎖+數據庫等

分佈式：Zookeeper相關背景知識及其總體概述

01.29 分佈式：關於命名服務的知識點都在這裡了

01.29 分佈式：深入理解分佈式系統的2PC和3PC（兩階段和三階段提交）

01.29 分佈式：關於分佈式事務、兩階段提交協議、三階提交協議深入認知

分佈式：關於分佈式一致性（Consistency）的探究

01.28 分佈式：關於分佈式系統的BASE理論概略

01.28 分佈式：關於分佈式的CAP理論

01.28 分佈式：初識分佈式系統

有贊研發面經Spring+併發鎖+分佈式+算法

最新鮮的美團現場面試41題（三面技術+HR面）：Redis+Kafka+分布式

史上最全Java面試266題：算法+緩存+TCP+JVM+搜索+分布式+資料庫

組件化、分布式、服務化、微服務、CAP定論、BASE

服務器“分佈式”與“集群”的區別是什麼？

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"