深入淺出百億請求高可用Redis(codis)分佈式集群揭祕

2019-04-18 15:38:58 騰訊技術工程

摘要：作為noSql中的kv數據庫的王者，redis以其高性能，低時延，豐富的數據結構備受開發者青睞，但是由於redis在水平伸縮性上受限，如何做到能夠水平擴容，同時對業務無侵入性是很多使用redis的開發人員都會面臨的問題，而redis分佈式解決方案的一個開源產品【codis】較好的彌補了這一弱勢，本文主要講解codis是如何做到對業務無感知，平滑遷移，遷移性能高，遷移異常處理，高可用以及常見的redis的避坑指南，雖然codis目前隨著公司的nosql產品越來越成熟，生命週期也即將結束，不過鑑於還有很多同學對codis的原理比較感興趣，於是將以前的分享的內容重新整理，當然codis在公司外應用目前依舊還是相對比較廣泛。

一、背景

二、Redis相關基礎概覽

2.1Redis簡介

2.2Redis的特點

2.3Redis應用場景

三、Redis分佈式解決方案公司內外比較

四、Codis的架構設計

4.1 Codis整體的架構設計

4.２Codisproxy的架構設計實現

五、數據可靠性 &高可用&容災&故障轉移&腦裂處理

5.1 數據可靠性

5.2 高可用&容災&故障轉移

六、codis水平擴容細節&遷移異常處理

6.1 Codis擴容遷移細節

6.2 遷移異常處理

七、Codis相關數據

八、運維手冊及避坑指南

一、背景

隨著直播元年開啟，越來越多的直播產品如春筍般出現，在拉動營收的過程中，產品竭盡全力思考著各種活動來刺激用戶的消費慾望，而這類活動的基礎形式就是榜單，在2016年我們基於cmem及掃描流水錶的方式來實現榜單排名，2017開始，我們對原有系統進行重構，使用redis作為我們的榜單基礎存儲，在重構的過程中接到調研redis分佈式解決方案的任務之後，比對業內各種開源產品，最後定下Codis，並對其中細節做了一些研究，期間在與Codis作者交流的過程中，有幸知道增值產品部的simotang已經在部門引入codis近2年時間，遂加入到codis的運維工作中，目前在部門內部署運維codis集群15套,2T容量,總日訪問量百億+.支撐了互動視頻產品部基礎存儲，運營活動，榜單類業務2年多,共計100多個活動，榜單上千個。同時在這裡非常感謝codis作者spinlock在接入codis過程中給予的指導與幫助。見spinlock github 與 codis地址

二、Redis相關基礎概覽

2.1 Redis簡介

redis是一個基於內存同時具備數據持久化能力的高性能，低時延的KV數據庫，value的數據結構可以是string,hash表，list(列表)，set(集合)，sortedset(有序集合)。

Redis(RemoteDictionary Server)

Redis is anopen source (BSD licensed), in-memory data structure store, used as adatabase, cache and message broker. It supports data structures suchas strings, hashes, lists, sets, sorted sets with rangequeries，Practice: http://try.redis.io/

2.2 Redis的特點

1. 單線程異步架構（單線程,收包，發包，解析，執行，多路io複用接收文件事件）

2. k-v結構，value支持豐富的數據結構（string,hash,list,set,sortset）

3. 高性能，低時延，基於內存操作，Get/Set10w+，高性能，基於RDB、AOF落地保證數據可靠性

4. 豐富的特性，可用於緩存，消息隊列，TTL過期

5. 支持事務，操作是原子性，要麼全部提交，要麼全部不提交。

2.3 Redis應用場景

string

計數器，用戶信息(id)映射，唯一性（例如用戶資格判斷），bitmap

hash

常見場景：存儲對象的屬性信息（用戶資料）

list

常見場景：評論存儲，消息隊列

set

常見場景：資格判斷（例如用戶獎勵領取判斷），數據去重等

sorted set

常見場景：排行榜，延時隊列

其他

分佈式鎖設計推薦2篇文章：

基於Redis的分佈式鎖到底安全嗎（上）

http://zhangtielei.com/posts/blog-redlock-reasoning.html

基於Redis的分佈式鎖到底安全嗎（下）

http://zhangtielei.com/posts/blog-redlock-reasoning-part2.html

2.4 寫在前面：codis與redis的關係

codis與redis之間關係就是codis是基於多個redis實例做了一層路由層來進行數據的路由，每個redis實例承擔一定的數據分片

2.5 redis學習資料

由於本文重點在於redis分佈式解決方案，對於redis相關的基礎部分，大家可以參考兩本書及相關源碼分析文章

1. Redis開發與運維(付磊)

2. Redis設計與實踐(黃健宏)（值得多看兩遍）

三、Redis分佈式解決方案公司內外比較

在比較方案之前，我們先根據我們的經驗輸出了我們期望的解決方案應該具備的能力，以此來衡量我們的選擇標準

基於此我們對公司內外做了一個如下的比較

【公司內組件對比】

【公司外組件對比】

基於以上比較，codis作為開源產品，可以很直觀的展示出codis運維成本低，擴容平滑最核心的優勢.

對於數據安全目前我們基於機器本機48小時滾動備份加上公司劉備備份（每天定時目錄備份的系統）的兜底備份，對於監控，目前接入monitor單機備份和米格監控告警）

四、codis的架構設計

4.1Codis整體的架構設計

codis官網

【圖codis架構圖】

如上圖所示，codis整體屬於二層架構，proxy+存儲，相對於ckv+無proxy的設計來說整體設計會相對簡單，同時對於客戶端連接數據逐漸增大的情況下，也不用去做數據層的副本擴容，而只需要做proxy層的擴容，從這一點上看，成本會低一些，但是對於連接數不大的情況下，還需要單獨去部署proxy，從這一點上看，成本會高一些。

其中，開源的codisproxy的服務的註冊發現是通過zk來實現，目前部門是基於l5來做.

從整體的架構設計圖來看，codis整體的架構比較清晰，其中codisproxy是分佈式解決方案設計中最核心的部分，存儲路由，分片遷移均與codisproxy分不開，這塊我們來看一下codisproxy的設計實現。

4.２Codisproxy的架構設計實現

codisproxy的架構實現分成2個部分，分別為4.2.1的路由映射的細節與4.2.2的proxy請求處理的細節

4.2.1 路由映射細節

如下圖所示：該部分主要涉及到codis的路由細節，主要涉及到如何將一個key映射到具體的物理結點

【圖】路由映射細節

如上圖所示：該部分主要涉及到codis的路由細節

| 相關詞彙說明

slot：分片信息，在redis當中僅僅表示一個數字，代表分片索引。每個分片會歸屬於具體的redis實例

group:主要是虛擬結點，由多臺redis機器組成，形成一主多從的模式，是邏輯意義上的結點

為了幫助大家對proxy路由映射的細節有一個更深入的理解，我整理了幾個常見的路由映射的相關問題來幫忙大家理解

問題一：proxy是如何把請求映射到具體的redis實例中？

Codis基於crc32的算法%1024得到對應的slot，slot就是所謂的邏輯分片，同時codis會將對應的邏輯分片映射到對應的虛擬結點上，每個虛擬結點是由1主多從的物理redis結點組成。至於為啥會用crc32，這個具體也沒有細究，作者也是借鑑於rediscluster中的實現引入的。通過引入邏輯存儲結點group，這樣即使底層的主機機器實例變更，也不映射上層的映射數據，對上層映射透明，便於分片的管理。

問題二，proxy是如何做到讀寫分離

如上圖所示，key映射到具體的虛擬結點時，能夠感知到虛擬結點對應的主與備機實例，此時redisproxy層面能夠識別到具體的redis命令得到對應的命令是讀與寫，再根據集群的配置是否支持讀寫分離的特性，如配置的是支持，則隨機路由到主與從機實例，如配置的是不支持，則路由到主機補全

問題三，proxy目前支持哪些命令，是否支持批量命令，如何保證原子性

不支持命令

半支持命令

命令支持部分：Prxoy支持的命令分為三種：不支持命令，半支持命令，支持命令，除了上表所示命令外，其他命令proxy均是支持的，其中不支持命令部分主要是因為這些命令參數中沒有key,因此無法識別路由信息，不知道具體路由到哪臺實例上，而半支持命令部分通常是會操作多個key,codis基於一種簡單實現，以第一個key的路由為準，因此需要業務方自己來保持多個key路由到同一個slot,當然業務也是可以不保證，具體後果業務來承擔，是一種弱校驗的模式，而公司級產品ckv+對於多key操作是強校驗，如果多key不在同一slot上，則以錯誤的形式返回。

多key操作&原子性部分：Redis本身對於多key的一些操作例如mset等命令是原子性的，而在分佈式操作下，多key會分佈到多個redis實例當中，涉及到分佈式事務，所以在codis當中進行了簡化處理，多key操作拆成多個單key命令操作，所以codis當中的mset多key操作不具備原子性的語義。

問題四，如何保證多個key在一個slot當中

有些場景下，我們希望使用到lua或者一些半支持命令來保證我們操作的原子性，因此我們需要在業務層面來去保證多key在一個slot當中，codis採用了和rediscluster一樣的模式，基於hashtag，例如我想讓七天的主播榜單都中路由在同一個slot的話，{anchor_rank}day1,{anchor_rank}day2,{anchor_rank}day3，即可支持，對就是採用大括號的模式，codis會識別大括號，只會取大括號中的字符串進行hash操作。

4.2.2Proxy請求處理細節

如下圖所示：該部分主要涉及到proxy的處理細節，涉及到如何接受一個請求到響應回包的過程

【圖】Proxy請求處理細節

如上圖所示：該部分主要涉及到proxy的處理細節

Codisproxy主要基於go語言這種從語言層面天然支持協程的語言來實現的

1）proxy接收客戶端的連接之後，新建一個session,同時啟動session中reader與writer兩個協程，reader主要用於接收客戶端請求數據並解析，對多key的場景下進行命令的拆分，然後將請求通過router進行分發到具體的redis實例，並將redis處理的數據結果寫到通道到中，writer從通道中接收對應的結果，將寫回給客戶端。

loop reader

loop writer

2）Router層主要是通過crc命令得到key對應的路由信息，從源碼可以看到hashtag的特性，codis其實也是支持的。

hash源碼

至此，proxy相關的路由映射與請求處理細節已經結束，整體下來是不是很簡單

五、數據可靠性&高可用&容災&故障轉移&腦裂處理

作為存儲層，數據可靠性與服務高可用是穩定性的核心指標，直接影響到上層核心服務的穩定性，本節將主要針對這兩個指標來做一下闡述。

5.1 數據可靠性

作為codis的實現來講，數據高可靠主要是redis本身的能力，通常存儲層的數據高可靠，主要是單機數據高可靠+遠程數據熱備+定期冷備歸檔實現的

單機數據高可靠主要是藉助於redis本身的持久化能力，rdb模式（定期dum）與aof模式（流水日誌），這塊可以參考前文所示的2本書來了解，其中aof模式的安全性更高，目前我們線上也是將aof開關打開，在文末也會詳細描述一下。

遠程數據熱備主要是藉助於redis自身具備主從同步的特性，全量同步與增量同步的實現，讓redis具體遠程熱備的能力

定期冷備歸檔由於存儲服務在運行的過程中可能存在人員誤操作數據，機房網絡故障，硬件問題導致數據丟失，因此我們需要一些兜底方案，目前主要是單機滾動備份備份最近48小時的數據以及sng的劉備系統來做冷備，以備非預期問題導致數據丟失，能夠快速恢復。

5.2 高可用&容災&故障轉移

codis的架構本身分成proxy集群+redis集群，proxy集群的高可用，可以基於zk或者l5來做故障轉移，而redis集群的高可用是藉助於redis開源的哨兵集群來實現，那邊codis作為非redis組件，需要解決的一個問題就是如何集成redis哨兵集群。本節將該問題分成三部分，介紹redis哨兵集群如何保證redis高可用，codisproxy如何感知redis哨兵集群的故障轉移動作，redis集群如何降低“腦裂”的發生概率。

5.2.1 哨兵集群如何保證redis高可用

Sentinel（哨崗，哨兵）是Redis的高可用解決方案：由一個或多個Sentinel實例組成的Sentinel系統，可以監視任意多個主服務器，以及這些主服務器屬下的所有的從服務器，並在被監視的主服務器進入下線狀態時，自動將下線主服務器屬下的某個從服務器升級為新的主服務器，然後由主服務器代替已下線的主服務器繼續處理命令請求。

通常來說要達到服務的高可用的效果需要做2個事情：故障探測與故障轉移（即選主並做主從切換）

故障探測

Sentinel集群故障轉移

1）選出一臺Sentinel-leader，來進行故障轉移操作（raft協議，過半選舉）

if (winner &&(max_votes < voters_quorum || max_votes < master->quorum))

2）領頭sentinel在已下線的從服務器裡面，挑選一個從服務器，並將其轉換為主服務器

3）讓已下線主服務器屬下的所有從服務器改為複製新的主服務器

4）將已下線主服務器設置為新的主服務器的從服務器，當這個舊的主服務器重新上線時，它就會成為新的主服務器的從服務器

注：從服務器中挑選新的主服務器的步驟

1）選舉列表中剔除所有下線或者斷線狀態的從服務器

剔除所有最近五秒內沒有回覆過領頭Sentinel的info命令的從服務器

剔除所有與已下線服務器超過down-after-millisenconds* 10（ms)的從服務器

2）根據從服務器優先級（取最高），複製偏移量（取最大），運行ID（取最小）

1)每1秒，向主服務器，從服務器，其他sentinel實例發送ping命令

有效回覆：+PONG,-Loading,+MASTERDOWN三種回覆一種

無效回覆：除以上三種回覆之外的回覆，或者在指定時限內沒有返回的回覆

Sentinel.conf-> Sentinel down-master-millsenconds master 50000

(當連續50秒，sentinel都接收到無效請求或者無回覆時，就會將master標記為主觀下線)

2)主觀下線之後，向其他sentinel發送詢問命令，如果達到配置中指定的數量時，則標記master為客觀下線

Sentinelmonitor master xx.xx.xx.xx 2

故障轉移

Sentinel集群故障轉移

1）選出一臺Sentinel-leader，來進行故障轉移操作（raft協議，過半選舉）

if (winner &&(max_votes < voters_quorum || max_votes < master->quorum))

2）領頭sentinel在已下線的從服務器裡面，挑選一個從服務器，並將其轉換為主服務器

3）讓已下線主服務器屬下的所有從服務器改為複製新的主服務器

4）將已下線主服務器設置為新的主服務器的從服務器，當這個舊的主服務器重新上線時，它就會成為新的主服務器的從服務器

注：從服務器中挑選新的主服務器的步驟

1）選舉列表中剔除所有下線或者斷線狀態的從服務器

剔除所有最近五秒內沒有回覆過領頭Sentinel的info命令的從服務器

剔除所有與已下線服務器超過down-after-millisenconds* 10（ms)的從服務器

2）根據從服務器優先級（取最高），複製偏移量（取最大），運行ID（取最小）

5.2.2 codis如何感知哨兵集群的故障轉移動作

codis的架構本身分成proxy集群+redis集群，redis集群的高可用是由哨兵集群來保證的，那麼proxy是如何感知redis主機故障，然後切換新主保證服務高可用的呢？

如上圖所示，proxy本身會監聽sentinle集群的+switch-master事件，該事件發出，意味著redis集群主機出現問題，sentinel集群開始進行選舉並切換主機，proxy監聽了sentinel的主從切換事件，收到主從切換事件之後，proxy會做一個動作，就是把所有sentinel上的集群所感知的當前認為的主機拉取出來，選取過半sentinel認為的主機當作目前的集群主機。

講到這裡，大家可能會忽略一個問題，就是配置存儲，配置中心的存儲還是舊的主機，一旦proxy重起，那拉取的依舊是故障的主機，其實dashboard和proxy也做了一樣的事情，收到主從切換事件之後，就會將新主持久化到storage中（目前為zk)

5.2.3 腦裂處理

腦裂（split-brain）集群的腦裂通常是發生在集群中部分節點之間不可達而引起的。如下述情況發生時，不同分裂的小集群會自主的選擇出master節點，造成原本的集群會同時存在多個master節點。，結果會導致系統混亂，數據損壞。

在這個問題上，這裡simotang同學已經講解的非常完善了，大規模codis集群的治理與實踐，這裡簡單說一下，由於redis集群不能單純的依賴過半選舉的模式，因為redismaster自身沒有做檢測自身健康狀態而降級的動作，所以我們需要一種master健康狀態輔助判斷降級的方式。具體實現為

1）降級雙主出現的概率，讓Quorums判斷更加嚴格，讓主機下線判斷時間更加嚴格，我們部署了5臺sentinel機器覆蓋各大運營商IDC，只有4臺主觀認為主機下線的時候才做下線。

2）被隔離的master降級，基於共享資源判斷的方式，redis服務器上agent會定時持續檢測zk是否通常，若連接不上，則向redis發送降級指令，不可讀寫，犧牲可用性，保證一致性。

六、codis水平擴容細節&遷移異常處理

由於codis是針對redis分佈式的解決方案，必然會面臨著redis單點容量不足的情況下水平擴容的問題，本節主要針對codis水平擴容與遷移異常的細節做一下說明，大家先帶著兩個問題來看，問題一，遷移過程中，正在遷移的key的讀寫請求怎麼處理，問題二，遷移過程中的異常（例如失敗，超時）怎麼處理。

6.1 Codis擴容遷移細節

【圖】遷移流程

影響面：

一階段期間的影響：通知到通知成功結束期間，proxy讀寫請求阻塞，不丟失，延時增高（時間極短，並行通知，僅僅修改狀態，使proxy中slot狀態達到一致）

遷移過程：可讀，正在遷移批次的不可寫，遷移完成的批次涉及到兩次網絡io

如上圖所示，其實redis平滑遷移過程，主要是實現了3個點，遷移準備，遷移動作，遷移性能保證。

遷移準備

主要是在遷移動作執行前，所有的請求都能夠感知到路由的變化，所以有了一階段的處理流程，此處實現是通過並行發送給所有的proxy，proxy會對相應的slot加寫鎖，所以的請求在隊列中排隊，直到所有的proxy都通知dashboard之後，proxy的鎖才放開，此時請求的延時會有輕微增高，但由於是並行響應，影響時間很短，視圖會輕微抖動。

遷移動作

主要由dashboard按批次觸發直到所有的key都遷移ok，遷移的過程，slot上的key可能存在2種情況，一種在新的redis實例上A，一種在舊的redis實例上B，所以對於有遷移狀態的slot，所有向這個slot發送的命令都通過在redis中定製的命令SLOTSMGRT-EXEC-WRAPPER來處理，該命令是基於3.2的分支新增的，該命令主要做這幾個事情，1）判斷key是否存在，如果存在，但不在遷移批次，則直接對key調用真實方法，如果存在，但在遷移批次，則允許讀操作，不允許寫操作，2）如果key不存大，則key可能已經被遷移到新實例，也可能key不存在，則通知proxy前往新的實例進行操作

遷移性能

Codis的遷移其實之前2.x版本的遷移性能並不高，3.x之前性能提升了非常之大，千萬級別的zset結構遷移只需要10多秒，而在原來的模式需要50多秒，具體原因在於

遷移性能數據

6.2 遷移異常處理

另外，看到這裡，不知道大家有沒有什麼問題，不過這裡我準備了一些問題，來看看codis是如何來處理的，特別在網絡環境複雜，不穩定的情況下怎麼操作

問題一，把大key拆分成小批次進行遷移，如果批次遷移失敗，超時，怎麼做？

我們知道分佈場景下網絡調用有三態，成功，失敗，超時，對於失敗還好一點，超時的情況，我們能否盲目進行重試，這裡顯然不行，通常對於數據層面的重試，我們需要保證一個非常重要的原則，冪等性，但是在redis結構中除了zset，set，hash，string結構重試理論不會受影響，對於list怎麼辦？所以codis用了一種比較暴力的方式，批次遷移成功重試時，會先帶上一個del命令，讓目標結點先將key刪掉，再進行重試。

問題二，帶過期時間key遷移過程中，先在目標結點上設置過期時間再傳數據，還是先傳數據在最後再設置過期時間？

先看一下在目標結點上設置過期時間再傳數據的問題：傳輸一半B機器的key過期，後續key就沒有過期時間。不符合我們的期望

再看一下先傳數據在最後再設置過期時間的問題：如果傳輸一半Acrash重啟，而此時key過期，則數據落在B機器上成殭屍數據，也不符合我們的期望。那codis如何來做呢？

為了保證遷移過程中的分片在遷移異常時能自動銷燬，所以每次分片傳輸的時候，都重置一下key過期時間為90秒（大於超時時間30秒），在key遷移完成之後再重置為真實的過期時間，這樣即使遷移過程中Acrash,key過期或者其他的異常，分片數據也只會在目標結點上存活90秒就銷燬。

問題三，遷移過程中Acrash, 此時對應分片的數據一半在A，一半在B，怎麼辦了？

常在河邊走，哪有不挨刀，我們就碰到過codis的一個因expire遷移實現不當造成的血案，不過幸好發生在測試環境，此時千萬千萬不要拉起A，因為A上可能有舊數據，此時會導致已經遷移完成的key重新遷移，造成B的數據丟失，正確的姿勢是A的備機頂上去，繼續遷移，因為A的備機雖然是異步複製，但基本接近於A的全量數據，所以問題不太大。不過所有的遷移過程中，都最好把數據和分片信息備份，以防數據丟失。此時也千萬千萬不能反向將B的數據遷移回A,因為B上可能殘留有部分遷移的數據，會覆蓋掉A的全量數據。

問題四，為了性能問題，可否A不做備機，不開啟AOF和RDB

這個也是萬萬不可，因為A如果crash之後，被織雲拉起，則相當於一個空實例，會清掉備機的數據，造成數據丟失。

七、Codis相關數據

其中壓測環境：壓測服務器（v4-8-100）+proxy(v4-8-100) + redis( B5(4 -32-100) )

從上圖中可以看出，當單次獲取的數據量越來越大時，proxy的性能下降會非常快，例如ZRANGE_500的直連的性能是proxy的2倍

八、運維手冊及避坑指南

操作注意項：

8.1 主從切換: 每次主從切換之後，都確認一下被切的主或者備機上的conf文件都已經rewriteok。

grep "Generatedby CONFIG REWRITE" -C 10 {redis_conf路徑}/*.conf

8.2 遷移數據：關鍵操作前，備份數據，若涉及切片信息，備份切片信息

A遷移B時間過長的命令查看：連上Acodisserver，命令行中執行slotsmgrt-async-status查看正在遷移的分片信息（尤其是大key），做到心中有數。千萬級別的key約20秒左右可以遷移完成

8.3 異常處理：redis宕機後重啟，重啟之後加載key快加載完時，頁面上報error

原因

可能是宕機後，redis命令寫入aof，只寫了命令的部分或者事務提交之後只寫入了事務的部分命令導致啟動失敗，此時日誌會aof的異常

修復

第一步備份aof文件

第二步執行VIP_CodisAdmin/bin中的redis-check-aof--fix appendonly.aof

第三步重啟

8.4 客戶端出現大量超時

1）網絡原因，聯繫“連線NOC智能助手”，確認鏈路網絡是否出現擁塞

2）觀察視圖，查看監聽隊列是否溢出

全連接隊列的大小取決於：min(backlog,somaxconn) ，backlog是在socket創建的時候傳入的，somaxconn是一個os級別的系統參數，基於命令ss-lnt，觀察監聽隊列目前的長度是否與預期一致，

調整參數：vim/etc/sysctl.conf net.core.somaxconn=1024 sysctl -p

3）慢查詢，slowlogget，確認是否有耗時操作執行，現網默認是10ms

slowlog-log-slower-than和slowlog-max-len

其中注意：慢查詢不包含請求排隊時間，只包含請求執行時間，所以有可能是redis本身排隊導致的問題，但通過慢查詢可能查不出來

8.5 fork耗時高

原因

1）當Redis做RDB或AOF重寫時，一個必不可少的操作就是執行fork操作創建子進程，雖然fork創建的子進程不需要拷貝父進程的物理內存空間，但是會複製父進程的空間內存頁表，可以在infostats統計中查latest_fork_usec指標獲取最近一次fork操作耗時，單位（微秒）。

改善

1）優先使用物理機或者高效支持fork操作的虛擬化技術。

2）控制redis單實例的內存大小。fork耗時跟內存量成正比，線上建議每個Redis實例內存控制在10GB以內。

3）適度放寬AOFrewrite觸發時機，目前線上配置：auto-aof-rewrite-percentage增長100%

子進程開銷

監控與優化

cpu

不要和其他CPU密集型服務部署在一起，造成CPU過度競爭
如果部署多個Redis實例，儘量保證同一時刻只有一個子進程執行重寫工作
1G內存fork時間約20ms

內存

背景：子進程通過fork操作產生，佔用內存大小等同於父進程，理論上需要兩倍的內存來完成持久化操作，但Linux有寫時複製機制（copy-on-write）。父子進程會共享相同的物理內存頁，當父進程處理寫請求時會把要修改的頁創建副本，而子進程在fork操作過程中共享整個父進程內存快照。

Fork耗費的內存相關日誌：AOFrewrite: 53 MB of memory used by copy-on-write，RDB:5 MB of memory used by copy-on-write

關閉巨頁，開啟之後，複製頁單位從原來4KB變為2MB，增加fork的負擔,會拖慢寫操作的執行時間，導致大量寫操作慢查詢

“sudo echonever>/sys/kernel/mm/transparent_hugepage/enabled

硬盤

不要和其他高硬盤負載的服務部署在一起。如：存儲服務、消息隊列

8.6 AOF持久化細節

常用的同步硬盤的策略是everysec，用於平衡性能和數據安全性。對於這種方式，Redis使用另一條線程每秒執行fsync同步硬盤。當系統硬盤資源繁忙時，會造成Redis主線程阻塞。

1）主線程負責寫入AOF緩衝區(源碼：flushAppendOnlyFile)

2）AOF線程負責每秒執行一次同步磁盤操作，並記錄最近一次同步時間。

3）主線程負責對比上次AOF同步時間：

如果距上次同步成功時間在2秒內，主線程直接返回。

如果距上次同步成功時間超過2秒，主線程將調用write(2)阻塞，直到同步操作完成

備註：打開AOF持久化功能後，Redis處理完每個事件後會調用write(2)將變化寫入kernel的buffer，如果此時write(2)被阻塞，Redis就不能處理下一個事件。Linux規定執行write(2)時，如果對同一個文件正在執行fdatasync(2)將kernelbuffer寫入物理磁盤,write(2)會被Block住，整個Redis被Block住。

通過對AOF阻塞流程可以發現兩個問題：

1）everysec配置最多可能丟失2秒數據，不是1秒。

2）如果系統fsync緩慢，將會導致Redis主線程阻塞影響效率。

Redis提供了一個自救的方式，當發現文件有在執行fdatasync(2)時，就先不調用write(2)，只存在cache裡，免得被Block。但如果已經超過兩秒都還是這個樣子，則會硬著頭皮執行write(2)，即使redis會被Block住。

AsynchronousAOF fsync is taking too long (disk is busy). Writing the AOFbuffer，withoutwaiting for fsync to complete, this may slow down Redis

8.7 不小心手抖執行了flushdb

如果配置appendonlyno，迅速調大rdb觸發參數，然後備份rdb文件，若備份失敗，趕緊跑路。配置了appedonlyyes, 辦法調大AOF重寫參數auto-aof-rewrite-percentage和auto-aof-rewrite-minsize，或者直接kill進程，讓Redis不能產生AOF自動重寫。·拒絕手動bgrewriteaof。備份aof文件，同時將備份的aof文件中寫入的flushdb命令幹掉，然後還原。若還原不了，則依賴於冷備。

8.8 線上redis想將rdb模式換成aof模式

切不可，直接修改conf，重啟

正確方式：備份rdb文件，configset的方式打開aof，同時configrewrite寫回配置，執行bgrewriteof，內存數據備份至文件

Redis開發與運維(付磊)

Redis設計與實踐(黃健宏)

大規模codis集群的治理與實踐

分享到:

閱讀更多 騰訊技術工程 的文章

關鍵字: 數據結構數據庫 NoSQL

Redis 創始人宣佈 Redis 6.0.0 穩定版正式 GA

【開源推薦】Redis 桌面管理工具RedisDesktopManager2020.0 發佈

高頻Redis面試題解析：Redis 事務是否具備原子性？

Redis 的多線程版本比 Redis 本身要快 5 倍

Redis zset內部實現

Redis 壓力測試

Redis 高可用

Redis 緩存

Redis Set和ZSet常用命令

Redis 的數據淘汰策略

Redis 的持久化底層如何實現的和優點缺點

Redis Hash和List常用命令

驚呆了，竟然可以用這種方式秒建 Redis 集群？

redis 安裝及隊列應用測試

關於緩存穿透、緩存擊穿、緩存雪崩的模擬與解決(Redis)

Redis 官網昨日宕機，錯誤提示為無法連接 Redis

Redis 位圖基礎到統計活躍用戶

redis 常用7種數據類型的使用場景解析

Redis Cluster 3.0集群部署與使用

Redis 講解系列之與Spring集成

Redis 如何處理已過期的元素？

01.21 「Redis 乾貨」如何將 Redis 的內存優化？

「Redis」Redis 基礎

12.24 面試必問：Redis 是如何進行主從複製的？

Redis 複製搭建

Redis 的 Sentinel

12.03 redis 安裝啟動

12.02 Redis-AOF持久化

Redis 面試熱點：什麼是 Redis 的雪崩、穿透和擊穿？（附筆記）

Redis 持久化

Redis 消息隊列的實現和區別

Redis 一站式管理平臺

redis 延時隊列

基於 Electron 的 Redis 圖形化客戶端 k-Redis 數

基於 Electron 的 Redis 圖形化客戶端 k-Redis

Redis 分佈式鎖的正確實現方式（Java版）

redis 常見數據結構實現

redis 中如何切換db

Redis 集群分佈式鎖與 API 網關分佈式限流

Redis 內存淘汰機制詳解

Redis 5 有序集合新增命令

Redis 殺死許可證：RediSearch、Redis Graph 等五個項目閉源

Redis Sentinel機制與用法說明

Redis 基本數據類型

05.08 高級的 Redis Java客戶端-Lettuce

12.19 Redis 隊列

Redis 隊列

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"

深入淺出百億請求高可用Redis(codis)分佈式集群揭祕

一、背景

二、Redis相關基礎概覽

三、Redis分佈式解決方案公司內外比較

四、codis的架構設計

五、數據可靠性&高可用&容災&故障轉移&腦裂處理

六、codis水平擴容細節&遷移異常處理

七、Codis相關數據

八、運維手冊及避坑指南

相關文章:

Redis 創始人宣佈 Redis 6.0.0 穩定版正式 GA

【開源推薦】Redis 桌面管理工具RedisDesktopManager2020.0 發佈

高頻Redis面試題解析：Redis 事務是否具備原子性？

Redis 的多線程版本比 Redis 本身要快 5 倍

Redis zset內部實現

Redis 壓力測試

Redis 高可用

Redis 緩存

Redis Set和ZSet常用命令

Redis 的數據淘汰策略

Redis 的持久化底層如何實現的和優點缺點

Redis Hash和List常用命令

驚呆了，竟然可以用這種方式秒建 Redis 集群？

redis 安裝及隊列應用測試

關於緩存穿透、緩存擊穿、緩存雪崩的模擬與解決(Redis)

Redis 官網昨日宕機，錯誤提示為無法連接 Redis

Redis 位圖基礎到統計活躍用戶

redis 常用7種數據類型的使用場景解析

Redis Cluster 3.0集群部署與使用

Redis 講解系列之 與Spring集成

Redis 如何處理已過期的元素？

01.21 「Redis 乾貨」如何將 Redis 的內存優化？

「Redis」Redis 基礎

12.24 面試必問：Redis 是如何進行主從複製的？

Redis 複製搭建

Redis 的 Sentinel

12.03 redis 安裝 啟動

12.02 Redis-AOF持久化

Redis 面試熱點：什麼是 Redis 的雪崩、穿透和擊穿？（附筆記）

Redis 持久化

Redis 消息隊列的實現和區別

Redis 一站式管理平臺

redis 延時隊列

基於 Electron 的 Redis 圖形化客戶端 k-Redis 數

基於 Electron 的 Redis 圖形化客戶端 k-Redis

Redis 分佈式鎖的正確實現方式（Java版）

redis 常見數據結構實現

redis 中如何切換db

Redis 集群分佈式鎖與 API 網關分佈式限流

Redis 內存淘汰機制詳解

Redis 5 有序集合新增命令

Redis 殺死許可證：RediSearch、Redis Graph 等五個項目閉源

Redis Sentinel機制與用法說明

Redis 基本數據類型

05.08 高級的 Redis Java客戶端-Lettuce

12.19 Redis 隊列

Redis 隊列

第二章 IoC容器和Bean配置

運算裡不得不說的python模塊—math

Devops度量--DevOps 現狀快速檢查表

SOP是什麼（解讀）

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

DNS偵查工具

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

（必收藏系列）Linux面試題——命令集

五分鐘學會如何在 IPFS 上部署網站

「正點原子NANO STM32F103開發板資料連載」第29章 內存管理實驗

小白怎麼學Web前端開發 如何成為技術達人

如何開發一個web靜態服務器

學Java編程還有前景嗎 如何才能拿到高薪

Python網絡爬蟲之配置篇（一）

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

Python的運行效率太低？幾行代碼快速提升！

python的優點是什麼？最新Python400集視頻（附教程）

MySQL中OOM故障應如何下手-愛可生

像專家一樣使用 panic

Redis 講解系列之與Spring集成

12.03 redis 安裝啟動

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

小白怎麼學Web前端開發如何成為技術達人

學Java編程還有前景嗎如何才能拿到高薪