基於MySQL InnoDB Cluster的MySQL高可用方案

2020-03-19 13:26:59 遊聚網

導讀：本文介紹了一套基於MySQL Router、Cluster和MySQLShell的InnoDB Cluster高可用方案，以同時實現跨機房的高可用、自動Failover、高一致性、讀寫分離、讀庫高可用、讀請求負載均衡。

全文約4500字，可參閱下面的大綱閱讀。

1. 背景和目標
2. 方案
2.1 基於MySQL GroupReplication的同步方案
2.1.1 組**的同步
2.1.2 組**的failover
2.1.3 組**的配置與啟用
2.2 MySQL Router、Cluster和MySQLShell構成的InnoDB Cluster高可用方案
2.2.1 MySQL Cluster 簡介
2.2.2 MySQL Router簡介
2.2.3 使用MySQL Shell配置MySQL Cluster
2.2.4 初始化MySQL Router
2.3 通過LVS解決router的單點問題
3. 壓測結果
4. 總結

1.背景和目標

數據庫的技術水平總是與業務發展緊密相連。

3年來，洋碼頭的業務增長了上百倍，數據庫也從數臺物理機擴展到了上百臺，從原來單一的SQLServer發展到目前的Mysql為主，外加SQL Server、Mongo、Redis、InfluxDB的多元化的技術路線。每年黑五、雙十一等重大活動節點，數據庫總是會迎來前所未有的流量高峰，2017年的黑五更是比同期增長了7倍之多，新一輪的改造勢在必行。

洋碼頭早期的核心業務數據庫使用的是基於Alwayson的mssql的高可用架構，可以實現單機房高可用、自動Failover、高一致性、讀寫分離、讀請求負載均衡，但在重大運營活動的峰值壓力下，單機性能已經達到了極限，為了應對更高的流量，分庫分表是常規的快速解決方案之一，但分庫分表會導致數據庫實例的大量增加，考慮到眾所周知的成本問題以及將來的擴展性，我們決心把核心的訂單、支付業務也遷移至MYSQL。我們的目標是：同時實現雙機房高可用、自動Failover、強一致性、讀寫分離、讀庫高可用、讀請求負載均衡。

2.技術方案

通過嚴謹的技術測試和分析研究，我們認為傳統的基於半同步+MHA的主從模式仍然存在數據丟失的風險，網絡波動可能導致腦裂，無法實現跨機房高可用、讀庫高可用以及讀請求負載均衡。在多方對比後，我們選擇了2016年底推出的MYSQL InnoDB Cluster作為高可用、高擴展性的分佈式架構，配合LVS，能夠完美的實現以上所有的需求。

介紹具體的方案之前，我們先介紹一下MySQL Innodb Cluster高可用架構的基礎：MySQLGroup Replication。

2.1 基於MySQL Group Replication的同步方案

MySQL Group Replication，簡稱組**，是MySQLInnodb Cluster高可用架構的基礎，是官方2016年底發佈的高可用、高擴展性的集群服務。它基於原生GTID**和Paxos協議[1]，自動化的一致性保障，日誌順序分發、多數投票機制確保了主從數據的強一致性（之前的半同步**極端情況是會出現不一致的情況），同時動態成員關係管理、錯誤節點監測確保了組內節點對外的可用性，各節點間在組信息上能夠實時保持一致。採用插件的方式安裝，對原有的數據庫表基本沒有影響（表必須具有主鍵），只是需要把MySQL升級到5.7.17以上，下面的介紹完全基於5.7的組**，8.0的剛剛推出，還有待觀察。

2.1.1 組**的同步

MySQL傳統的同步**一直被詬病的是其糟糕的一致性控制和從庫可寫導致的衝突問題，由於從庫可讀寫，同步時並不強制binlog的連續性，同步異常問題時有發生，組**很好的解決了這個問題。

MySQL Group Replication Protocol

組**的同步仍然是基於原生的**，不同的是組**的每個RW事務在commit時都需要組內超過半數的成員確認該事務的全局順序，即共同確認一個全局的順序ID，順序ID中包含了修改行的唯一標識，最終所有的成員都能夠通過相同的順序執行所有的RW事務，從而保證了數據的強一致性[2]。

因為這個特性，組**也能夠支持多主模式，並有一套完善的衝突解決方案。當不同節點同時對同一條記錄發起修改事務時，因為transaction_write_set有行的唯一標識，基於Paxos的衝突檢測機制會提交先獲得多數選票的事務，而另一個申請中的、順序ID小於已提交事務的事務會因此而無法獲得多數選票從而最終回滾，從而達到最終一致。

那麼多主模式是否提升整體寫負載呢？我們使用sysbench做了壓力測試，3個寫節點，5000000條記錄隨機更新，40個併發，大約8000TPS，就會產生大量的衝突，而單節點時可以達到11000TPS，多節點寫TPS降低了近30%，平均響應時間也基本翻番。這是因為熱點數據衝突的緣故，所以多節點同時寫同一個庫的設置是不**的。但如果多主的模式是應用在寫請求按庫隔離分佈在各個節點的模式下，那麼由於日誌同步的開銷要少於原本的事務執行，此時是可以提升整體寫負載能力的。

在單主模式下的組**，除了主節點以外的成員，會自動開啟read_only和super_read_only，以確保同一時刻只有一個節點能夠產生事務日誌，進一步增強一致性，降低了腦裂的可能。

目前一個組**集群最多支持9個節點。

2.1.2 組**的failover

組**成員之間會通過一個特定的端口相互進行心跳檢測，這個端口在配置文件中配置，該端口不同於對外提供數據庫連接的端口。

Failover在不同的場景下會有不同的響應方式，當主節點關閉組**，或者關閉實例時，組**會認為該節點是正常退出**集群，此時退出行為會被廣播到所有的剩餘成員（errorlog 會有相應的view change 記錄），並且剩餘成員會發起選舉，根據權重參數選舉出新的主節點，如果權重參數相同，則選擇UUID最小的實例為主節點。如果主節點是異常連接中斷，比如網絡斷開，服務器斷電等，其他成員因為沒有收到主節點的退出消息，這時會檢查剩餘節點是否大於半數，如果大於半數，則認為主節點異常，會從集群組中踢出主節點，併發起選舉，選出新的主節點，如果剩餘節點小於或等於半數，即只剩最後一個節點，為了避免腦裂，那麼該從節點狀態不變，沒有新的主節點產生，唯一的從節點依然處於只讀狀態，直到我們手動指定新的主節點或者原主節點恢復連接。根據Paxos協議，任何節點成為主節點前都必須獲取所有事務日誌，並且relay完成，該機制保證了failover過程中事務不會丟失。整個failover過程是完全自動的。

2.1.3 組**的配置與啟用

下列是與組**相關的配置項，基本都是必須配置的項目。

創建同步賬號

初始化集群

對於第一個加入集群的實例，需要開啟該選項(group_replication_bootstrap_group)才能啟動組**，但如果組內已經有Primary，再加入開啟了該選項的新成員，會導致腦裂和同步異常。當整個集群所有實例同時關閉再啟動時，需要手動指定一個新的Primary，也需要開啟該參數。

集群成員之間需要能夠相互ping通hostname，可以通過DNS或者hosts文件實現。

組**提供了一套完善的容錯功能，保障了數據的強一致性，自動failover功能則提供了數據庫層面的高可用和快速的恢復服務能力，並且具有橫向彈性擴展的特性。但是組**並不能實現讀請求的負載均衡、讀寫分離以及對應用層的高可用，要實現這些就需要Cluster、MySQLRouter、MySQLShell。

2.2 MySQL Router、Cluster和MySQL Shell構成的Mysql InnoDB Cluster高可用方案

InnoDB cluster overview

注：上圖來自官方網站：https://dev.mysql.com/doc/refman ... er-i**oduction.html

2.2.1 MySQL Cluster簡介

Cluster是這個高可用方案中的一個虛擬節點，它會在組**的所有成員上創建一個名為MySQL_innodb_cluster_metadata的數據庫，存儲集群的元數據信息，包括集群信息、集群成員、組**信息、連接的MySQL Router等信息，以提供MySQL Router查詢。它相當於對組**上的成員做了一層邏輯上的封裝，以一個集群的模式展現出來，各節點的狀態與對應實例在組**中成員的狀態實時同步，但是集群的節點與組**的成員只在創建集群時同步，後期組**的成員變更並不自動同步到集群中，可以在集群中做手動的節點增減，這樣使得面向應用端的具體實例實現了更可控更靈活的高可用。

2.2.2 MySQL Router 簡介

MySQL Router可以說是MySQL Proxy的升級產品，是介於Client與MySQL實例之間的**程序。MySQL Router會週期性的訪問Cluster創建的MySQL_innodb_cluster_metadata庫中的元數據獲取集群成員信息,再通過performance_schema的系統表獲取可連接實例及其狀態，啟動後會產生2個端口，分別對應集群的讀寫節點和只讀節點，它使應用能夠透明的連接InnodbCluster下的數據庫，即使集群發生failover或者增減成員也不用修改應用配置。這裡我們實現了讀寫分離和讀請求的負載均衡。

注意，Router需要能夠ping通集群成員的hostname，可以通過DNS或者hosts文件實現。在2.1.3及之前的版本，單個MySQL Router實例只支持上限500個連接數，需要根據實際連接數情況，部署足夠數量的Router節點。

2.2.3 使用MySQL Shell配置MySQL Cluster

MySQL Shell是新的MySQL客戶端工具，支持JavaScript、Python和MySQL腳本，用作搭建InnodbCluster。

MySQL Shell搭建Cluster的一些常用命令

2.2.4 初始化MySQL Router

初始化Router時如果不用默認端口可以指定寫端口，讀端口會自動設置為寫端口+1，Router的name會記錄在MySQL_innodb_cluster_metadata中，每臺Router必須使用不同的name。初始化完成後在指定目錄下產生一個配置文件,其中包含了初始化時關聯集群的成員信息，這些信息只在啟動Router後做連接用，啟動期間集群成員的變化會實時被Router接收，但是並不會固化到配置文件中，如果需要修改配置文件可以重新初始化或者手動更新。

到這裡，MySQLRouter、Cluster、MySQLGroup replication都配置完成，應用通過連接Router的讀寫端口能夠透明連接數據庫主從節點，單實例異常或failover的影響都可以控制在十多秒的窗口內。但此時Router本身仍是一個單點，官方文檔中**將MySQLRouter安裝在應用端來解決其單點問題，優點是減少網絡傳輸帶來的延遲、可使用Socket連接、容易擴展，與應用一對一綁定。但實際情況下需要考慮應用部署、發佈、健康監測以及集群節點變更後更新Router配置文件等問題，這些問題會大大增加運維的複雜度，需要對原有的應用和發佈系統做升級改造，成本較高。因此最終我們選擇了集中部署加上LVS的模式，既方便維護，又具有靈活的擴展性。

2.3 通過LVS解決router的單點問題

基於MySQLInnodb Cluster和LVS的三機房高可用網絡拓撲圖

上圖是基於三機房的完整性方案，數據庫一主多從，每個機房各至少一個數據庫實例，兩組Router群集，一組映射出與數據庫端口相同的讀寫端口，一組映射出與數據庫端口相同的只讀端口，每組Router集群的成員數量可動態擴展，每個機房配置1套LVS，每套LVS映射2個本機房網段的VIP，這樣讀寫端口與只讀端口都與數據庫端口一致，並通過2個VIP分別綁定2個域名，這樣就有隻讀和讀寫兩個域名綁定相同的端口嚮應用分別提供服務。這樣做的目的是，一旦中間層LVS、Router、Cluster出現異常或者有大規模調整需要重建中間層，因為應用配置的讀寫、只讀端口都與數據庫實例端口相同，可以先把2個域名直接指向數據庫實例IP，在中間層調整完成後再指回LVS。同時，每個機房使用獨立的DNS服務，確保本機房的域名指向本機機房的VIP，這樣的架構中，當一整個機房斷電或者單條跨機房光纖發生故障，即使是主機房故障，整個系統也會自動完成failover，快速恢復數據庫服務，同時因為應用服務器訪問的都是本機房的中間層，因此中間層和應用配置也無需變動，能夠真正實現跨機房的高可用。

因為考慮機房容災，所以這個架構的中間層冗餘較多（其實所有數據庫實例可以共用一套中間層，所以也並不算多），如果對機房容災的要求較低，可以只在一個機房部署LVS和Router，而GroupReplication的從庫可縮減為最小配置兩臺，當主機房異常時，備用機房的數據庫從庫手動設置為單點可用，讀寫域名和只讀域名都手動指向該數據庫實例IP即可。

基於MySQLInnodbCluster和LVS的雙機房高可用網絡拓撲圖

3. 壓測結果

使用Router+LVS不會影響數據庫服務器本身性能但會影響整體響應時間，下面的壓測會比較各種場景下各節點對響應時間的影響。

無跨機房網絡結構

最差情況的2次跨機房網路結構

壓測使用的是sysbench，對原生的測試腳本做了一些調整，耗時指單個語句的平均耗時。40個併發、讀寫4：1、每個查詢平均100邏輯讀。壓測期間系統CPU峰值：數據庫CPU:55% Router CPU:4% LVS CPU:0% net send:50MB/s。

根據壓測數據，中間節點（Router、LVS）和跨機房連接均會延長響應時間，導致不同程度的TPS下降，單個query的平均響應時間受影響程度很小，如下：

由於響應時間增加極少，而TPS在高併發下最終會達到數據庫的上限，因此這些影響在生產環境完全可以接受。

4. 總結

這套架構全面實現了雙機房高可用、自動Failover、強一致性、讀寫分離、讀庫高可用、讀請求負載均衡，且任何單點異常都可以在3-15秒內完全自動恢復，即使主機房整體異常也只需手動指定Mysql主庫即可恢復讀寫，整體架構可以高效可靠的保障超大併發下的業務穩定，目前此架構已經在洋碼頭的數據庫體系中完美運作。

[1]http://mysqlhighavailability.com/the-king-is-dead-long-live-the-king-our-homegrown-paxos-based-consensus/

[2]http://mysqlhighavailability.com/mysql-group-replication-transaction-life-cycle-explained/

分享到:

閱讀更多 遊聚網 的文章

關鍵字: 路由器可用可以很

在CentOS 上調試 MySQL-5.7.x 或者 MySQL-8.0 源碼

Mysql -樂觀鎖和悲觀鎖

MYSQL 利用 MYSQL Shell 安裝 INNODB Cluster 這坑踩得

電力企業信息管理系統(ssm,mysql)

MySQL 數據操作 DML

Mysql 查詢天、周，月，季度、年的數據

乾貨!MYSQL:事務管理，鎖機制案例詳解

MySQL 聚集索引和二級索引

專治 MySQL 亂碼，再也不想看到亂碼了

MySQL 派生表優化

03.03 MySQL 派生表優化

02.27 MySQL charset不同導致無法使用索引的坑

MySQL 8.0新特性：持久化自增列

mysql 建立索引的一個規則

使用 TCP Wrappers 保護 MySQL 如何導致服務中斷

mysql 索引的使用與優化看這篇就夠了

MySQL 的 B+Tree 索引樹到底該怎麼畫？

mysql 數據庫整理

MySQL 用 limit 會影響性能嗎？

MySQL-mdl鎖

關於 mysql 在開發過程中使用的點

MySQL C API 參數 MYSQL

MySQL explain詳解

MySQL 優化之EXPLAIN詳解(執行計劃)

MySQL 用 limit 為什麼會影響性能？

MySQL InnoDB的4個特性

MySQL：你知道什麼是覆蓋索引嗎？

MySql Binlog事件介紹篇

MySQL

mysql 中的數據類型

MySQL InnoDB引擎鎖的總結

MySQL 事務

「mysql」索引的設計和使用

MySQL：優化嵌套查詢和分頁查詢

「MySQL」mysql中語句執行的順序以及查詢處理階段的分析

mysql sql語句大全

MySQL 性能調優技巧

MySQL 常用30種SQL查詢語句優化方法

07.26 MySQL 高效分頁方案

MySQL query rewrite插件簡單測試

MySQL 從零開始：02 MySQL 安裝

07.07 MySQL——如何快速對比數據？

不像 MySQL 的 MySQL：MySQL 文檔存儲介紹

「MySQL」關於MySQL中的if和case語句的使用

MySQL-海量數量下的查詢效率提升

「mysql」詳解在查詢時，offset過大影響性能的原因與優化方法

MySQL EXPLAIN詳解

12.13 MySQL EXPLAIN詳解

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"