02.25 每天14點遭遇驚魂時刻，如何一步一步揪出真凶？

2020-02-25 20:01:03 51CTO

筆者所在的公司有一款大 DAU(日活)的休閒遊戲。這款遊戲的後端架構很簡單，可以簡單理解為通訊-邏輯-存儲三層結構。其中存儲層大量使用了 Redis 和 MySQL。

圖片來自 Pexels

隨著存量用戶的增加，Redis 就隔三差五的出現問題。所以筆者打算把遇到的一系列問題以及在項目裡的實踐都整理記錄下來。

項目組每天 14 點都會遭遇驚魂時刻。一條條告警短信把工程師從午後小憩中拉回現實，之後問題又神秘消失。

是 PM 喊你上工了?還是服務器給你開玩笑?下面請看工程師如何一步一步揪出真兇，解決問題。

起因

某天下午，後端組的監控系統發出告警，服務器響應時間變長，超過了閾值。過一會兒系統自動恢復了，告警解除。

第二天差不多的時間點，監控系統又發出了同樣的告警，過幾分鐘後又恢復了。於是我們決定排查這個問題。

背景

首先要介紹一下應用的架構，是很簡單的三層架構的 Web 服務，從外到內大概是這樣的：

Load Balance：對外提供訪問入口，對內實現負載均衡。
Nginx：放在 LB 後面，實現流控等功能。
App Service：邏輯服務，多機多進程。
Storage：MySQL 和 Redis 組成的存儲層。

我們的服務部署在 AWS 雲上，架構裡用到了很多 AWS 的服務，比如 ELB，EC2，RDS 等。

表象

排查問題的第一步就是要收集信息。從監控和日誌系統裡提取大量的相關信息，然後再分析、解決問題。

我們收集到的信息大概是這樣的，在每天 14 點的時候：

QPS 突增。
P99 指標升高。
App 服務器集群 CPU、內存都升高，TCP 連接數暴漲，入網流量降低。
MySQL Write IOPS 升高，寫入延時升高，數據庫連接數升高。

幾分鐘後，這些指標都回歸到正常水平。

排查

首先從代碼入手，看看是不是有這個時間點的定時任務。結果發現並沒有。然後就是第一個懷疑對象 MySQL。

使用 mysqlbinlog 命令統計一下各個時間點的 binlog 數量：

我們又在第二天的這個時間點觀察了一下現場，使用 show processlist 命令抓取一下當時 MySQL 連接的狀態，結果發現來自 App 服務器的連接竟然都 sleep 了 20 秒左右，什麼事兒都沒做。

初步推論

根據以上的數據可以還原一下當時的場景：

App 服務器 Socket 數激增。
App 服務器不再進行邏輯處理(這個待確認)。
App 服務器不再進行任何數據庫操作。
App 服務器恢復讀寫數據庫。
積壓了大量的網絡請求讓遊戲服務器 CPU 增加。
大批量的寫請求湧向數據庫造成數據庫各項指標升高。

那麼問題來了：

激增的 Socket 來自哪裡?
或者去連接了誰?
App 服務器為什麼會長達 20 秒沒有什麼數據庫操作?
App 服務器是真的 hang 住了?

帶著疑問開始進一步排查。

深入排查

先解決第一個問題：多出來的 Socket 來自哪裡?

App Service

在 14 點前，選一臺 App 服務器，抓取它的 TCP 連接：

<code>#!/bin/bash while [ true ]; do     currentHour=$(date +%H)     currentMin=$(date +%M)     filename=$(date +%y%m%d%H%M%S).txt     if [ $currentHour -eq 05 ] && [ $currentMin -gt 58 ];   then         ss -t -a >> $filename         #/bin/date >> $filename      elif [ $currentHour -eq 06 ] && [ $currentMin -lt 05 ]; then         ss -t -a >> $filename         #/bin/date >> $filename     elif [ $currentHour -ge 06 ] && [ $currentMin -gt 05 ]; then         exit;     fi      /bin/sleep 1 done /<code>

對大小差異比較大的文件進行比對，發現多出來的連接來自 Nginx。Nginx 只是個代理，那就排查它的上游 Load Balance。

Load Balance

Load Balance 我們使用的是 AWS 的經典產品 ELB。ELB 的日誌很大，主要是分析一下這段時間內有沒有異常的流量。

經過對比分析 13:55-14:00 和 14:00-14:05 這兩個時間段的請求上沒有明顯的差異。

基本上都是由以下請求構成：

https://xxxxxxx.xxxx.xxx:443/time
https://xxxxx.xxxx.xxx:443/gateway/v1

但是從 14:00:53 開始，帶 gateway 的請求大部分都返回 504，帶 time 的請求都正常返回。504 表示網關超時，就是 App 響應超時了。

根據這個信息又可以推斷出一些情況：

App Service 還在正常提供服務，否則 time 請求不會正常返回。
App Service 所有寫數據庫的操作都處於等待的狀態。
Nginx 到 App Service 的連接得不到及時處理，所以連接很長時間沒有斷開，導致了 Nginx 和 App Service 的 Socket 連接快速增長。

根據以上，基本上可以排除是 ELB，Nginx 帶來的問題。那麼問題就剩下一個，什麼數據庫長時間不可寫呢? 而且每天都在固定時間。

MySQL

問題又回到了數據庫上，首先想到的就是備份，但是我們的備份時間不在出問題的時間段。

我們使用的是 AWS 的 RDS 服務，查閱了一下 RDS 關於備份的文檔。只有在數據庫備份的時候才可能會出現寫 I/O 掛起，導致數據庫不可寫。

而默認的備份時間窗口是這樣的：

這個開始的時間也剛好在我們出問題的時間，簡直是太巧合了。

下一步就是要確認這個問題。是在偷偷的幫我們做備份，還是實例所在的物理機上的其他實例干擾了我們?

在某個 MySQL 實例上建個新的數據庫 test，創建一張新表 test：

<code>CREATE TABLE `test` (     `id` int(10) unsigned NOT NULL AUTO_INCREMENT,     `curdate` varchar(100) NOT NULL,     PRIMARY KEY (`id`) ) ENGINE=InnoDB AUTO_INCREMENT=2 DEFAULT CHARSET=utf8; /<code>

每秒鐘往這張表裡寫條數據，數據的內容是當前時間，這樣就能看出來在哪個時間段數據庫不可寫了。

同時每秒鐘讀取這張表的最大值，記錄下結果和當前時間，這樣就能看出來哪個時間段數據庫不可讀。

測試的腳本如下：

<code>#!/bin/bash host=xxxx.xxx.xxx port=3306 user=xxxxx password=xxxxx  mysql="mysql -u$user -p$password -h$host -P$port --default-character-set=utf8 -A -N"  fetchsql="show processlist;" selectsql="select max(id),now(3) from test.test;" insertsql="insert into test.test(curdate) value(now(3));"  function run(){     filename_prefix=$1     mysqlcmd="$($mysql -e "$fetchsql")"     echo $mysqlcmd >> $filename_prefix.procs.txt     mysqlcmd="$($mysql -e "$selectsql")"     echo $mysqlcmd >> $filename_prefix.select.txt        mysqlcmd="$($mysql -e "$insertsql" )"    } while [ true ]; do     currentHour=$(date +%H)     currentMin=$(date +%M)     filename_prefix=./checksql/$(date +%y%m%d%H%M%S)     $(run $filename_prefix)     if [ $currentHour -eq 05 ] && [ $currentMin -gt 59 ];   then         $(run $filename_prefix);      elif [ $currentHour -eq 06 ] && [ $currentMin -lt 02 ]; then         $(run $filename_prefix);      elif [ $currentHour -ge 06 ] && [ $currentMin -gt 02 ]; then         exit;     fi      /bin/sleep 1  done /<code>

這個腳本同時還每秒鐘掃描一次 MySQL 各個客戶端的工作狀態。最後得到的結論是，出現問題的時間點，數據庫可讀也可寫。

問題好像陷入了困境。懷疑的點被一一證明沒有問題。線索也斷了。只能再回到起點了，繼續從代碼下手，看看哪裡會造成單點，哪裡出現了問題會讓所有的遊戲服務器集體卡住，或者是讓數據庫操作卡住。

Redis

終於排查到了罪魁禍首主角，最可疑的有兩個點：

數據庫分片的方案依賴 Redis。Redis 裡存儲了每個用戶的數據庫分片 id，用來查找其數據所在的位置。
用戶的設備和邏輯 id 的映射關係，也存儲在 Redis 裡。幾乎每個 API 請求都要查找這個映射關係。

以上兩點幾乎是一個 API 請求的開始，如果這兩點出現了問題，後續的操作都會被卡住。

經過和 OPS 確認，這兩個 Redis 的備份時間窗口確實在 6:00-7:00utc。而且備份都是在從庫上進行的，我們程序裡的讀操作也是在從庫上進行的。

通過 Redis 的 info 命令，參考 Redis 最近一次的備份時間，時間點也剛好都在北京時間 14:01 左右。

進一步確認嫌疑：把兩個 Redis 的備份時間做出更改。Redis1 更換為 3:00-4:00utc，Redis2 更換為 7:00-8:00utc。

北京時間 11:00 左右 Redis1 正常備份，問題沒有復現;北京時間 14:00 左右問題沒有復現;北京時間 15:00 左右 Redis2 正常備份，問題復現。

事後查看了一下 Redis1 和 Redis2 的數據量，Redis2 是 Redis1 的 5 倍左右。

Redis1 佔用內存 1.3G 左右，Redis2 佔用內存 6.0G 左右。Redis1 的備份過程幾乎在瞬間完成，對 App 的影響不明顯。

結論

問題出現的大致過程是這樣的：

Redis2 在北京時間的 14 點左右進行了從庫備份。
備份期間導致了整個 Reids 從庫的讀取操作被阻塞住。
進一步導致了用戶的 API 請求被阻塞住。
這期間沒有進行任何數據庫的操作。
被逐漸積累的 API 請求，在備份完成的一小段時間內，給 Nginx，App Service，Redis，RDS 都帶來了不小的衝擊。
所以出現了前文中描述的現象。

事後煙

其實問題的根源還在 Redis 的備份上，我們就來聊一下 Redis 的備份。

Redis 的持久化可以分為兩種方案：

全量方式 RDB
增量方式 AOF

詳情可以參考官方中文翻譯：

http://www.redis.cn/topics/persistence.html

RDB

把內存中的全部數據按格式寫入備份文件，這就是全量備份。它又分為兩種不同的形式。

涉及到的 Redis 命令是 SAVE/BGSAVE：

SAVE：眾所周知，Redis 服務都是單線程的。SAVE 和其他常見的命令一樣，也是運行在主進程裡的。可想而知，如果 SAVE 的動作很慢，其他命令都得排隊等著它結束。
BGSAVE：BGSAVE 命令也可以觸發全量備份，但是 Redis 會為它 Fork 出來一個子進程，BGSAVE 命令運行在子進程裡，它不會影響到 Redis 的主進程執行其他指令。它唯一的影響可能就是會在操作系統層面上和 Redis 主進程競爭資源(CPU，RAM 等)。

AOF

增量的備份方式有點像 MySQL 的 binlog 機制。它把會改變數據的命令都追加寫入到備份文件裡。這種方式是 Redis 服務的行為，不對外提供命令。

兩種方式優缺點對比：

RDB 文件較小，自定義格式有優勢。
AOF 文件較大，雖然 Redis 會合並掉一些指令，但是流水賬還是會很大。
RDB 備份時間長，無法做到細粒度的備份。
AOF 每條指令都備份，可以做到細粒度。
二者可以結合使用。

Amazon ElastiCache for Redis

我們使用的是 AWS 的託管服務，他們是怎麼做備份的呢?

詳情可以參考官方文檔：

https://docs.aws.amazon.com/zh_cn/AmazonElastiCache/latest/red-ug/backups.html#backups-performance

Redis 2.8.22 以前：使用 BGSAVE 命令，如果預留內存不足，可能會導致備份失敗。

Redis 2.8.22 及以後：如果內存不足，使用 SAVE 命令。如果內存充足，使用 BGSAVE 命令。

大概要預留多少內存呢?AWS 官方推薦 25% 的內存。很顯然我們的實例的預留內存是不夠這個數的，所以導致了問題的出現。我覺得 AWS 可以把備份做的更好。

分享到:

閱讀更多 51CTO 的文章

關鍵字: 中央處理器美好，一直在身邊 Bash

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"