優化｜Redis AOF重寫導致的內存問題技术頭條網

2019-01-03 14:52:20 劉弋

一、問題說明

業務上接到報警提示服務器內存爆了，登錄查看發現機器剩餘內存還很多，懷疑是被OOM了，查看/var/log/messages：

kernel: [25918282.632003] Out of memory: Kill process 18665 (redis-server) score 919 or sacrifice child
kernel: [25918282.637201] Killed process 18665 (redis-server) total-vm:17749556kB, anon-rss:14373204kB, file-rss:1236kB
kernel: [25918791.441427] redis-server invoked oom-killer: gfp_mask=0x24280ca, order=0, oom_score_adj=0

發現redis-server被oom kill了，但是登錄查看發現redis-server並沒有down掉.

二、問題排查

既然redis-server並沒有被kill，那被kill的有可能是redis的子進程。

進入redis的data目錄查看：

-rw-rw-r-- 1 myuser myuser 18044223152 4月 8 12:01 appendonly.aof
-rw-rw-r-- 1 myuser myuser 3603981186 4月 8 12:01 temp-rewriteaof-25595.aof
-rw-rw-r-- 1 myuser myuser 4083774382 4月 8 11:46 temp-rewriteaof-18665.aof
-rw-rw-r-- 1 myuser myuser 4326578230 4月 8 11:21 temp-rewriteaof-8116.aof

發現有好幾個temp-rewriteaof文件，這是redis在進行aofrewrite時產生的臨時文件。

注意看其中一個的名字：temp-rewriteaof-18665.aof ，後面的18665即rewrite子進程的pid，上面被oom kill的進程ID也是18665，說明是redis的aofrewrite子進程被kill了。

而多個temp文件，而且時間都是最近的，說明redis已經嘗試了多次rewrite，都因為內存不足被中途kill。

查看監控發現，近期確實多次出現了內存突增的情況：

為什麼aof重寫會導致內存爆漲？這要從它的原理說起。

AOF 是redis的一種持久化方式，用來記錄所有的寫操作，但是隨著時間增加，aof文件會越來越大，所以需要進行重寫，將內存中的數據重新以命令的方式寫入aof文件。

在重寫的過程中，由於redis還會有新的寫入，為了避免數據丟失，會開闢一塊內存用於存放重寫期間產生的寫入操作，等到重寫完畢後會將這塊內存中的操作再追加到aof文件中。

從原理中可以瞭解到，如果在重寫過程中redis的寫入很頻繁或寫入量很大，就會導致佔用大量額外的內存來緩存寫操作，導致內存爆漲。

查看redis的訪問情況：

從監控中可以看到，redis實際的訪問OPS並不高，那麼剩下的可能性就只有寫入量了。

登錄Redis使用monitor監控了一段時間的訪問，記錄到文件中：

[myuser@redis-00 ~]$ time redis-cli -p 6379 monitor > monitor.log
^C
real	0m24.219s
user	0m0.552s
sys	 0m0.036s

通過查看monitor.log發現，存在這樣一條語句：

1523351418.461744 [0 10.10.10.10:6379] "SET" "xx_xx_id_17791" 
"[615249,615316,615488,616246,616498,616580,617117,617291,617510,617879,
618052,618377,618416,619010,619185,619603,619816,620190,620230,620387,
620445,620524,621012,621214,621219,621589,621596,621616,621623,621669,
621670,621682,621683,621820,621994,622168,622207,622245,622384,622442,
622450,622608,622644,622654,622658,622704,622784,622785,622786,622810,
622834,622876,622887,622934,622936,622937,622939,622943,622967,......]"

為了看起來方便，我做了換行處理，並且省略了大部分的key內容，但實際上該set命令的內容一直拉不到頭。

過濾該key進行分析：

# monitor.log 大小
[myuser@redis-00 ~]$ du -sh monitor.log
62M monitor.log
[myuser@redis-00 ~]$ wc -l monitor.log
12114 monitor.log
[myuser@redis-00 ~]$ grep 'xx_xx_id_17791' monitor.log | grep -v 'GET' > xx_xx_id_17791.log
# xx_xx_id_17791 key 大小
[myuser@redis-00 ~]$ du -sh xx_xx_id_17791.log 

61M xx_xx_id_17791.log
[myuser@redis-00 ~]$ wc -l xx_xx_id_17791.log
17 xx_xx_id_17791.log

62M的monitor文件，17行 xx_xx_id_17791 的set命令一共佔了61M，很明顯就是這個key搞的鬼了，去找開發確認，果然是程序出了問題。

三、處理結果

1. 臨時處理

在接到報警時是在夜間，而aof rewrite一直失敗，因此做了臨時處理：

127.0.0.1:6379> config get auto-aof-rewrite-percentage
1) "auto-aof-rewrite-percentage"
2) "200"
127.0.0.1:6379> config set auto-aof-rewrite-percentage 800
OK

auto-aof-rewrite-percentage 是設置aof rewrite觸發時機的一個參數，噹噹前的aof文件大小超過上一次rewrite後aof文件的百分比後觸發rewrite。

200 改為 800 ，即當前的aof文件超過上一次重寫後aof文件的8倍時才會再次rewrite，這樣可以保證短期內不會再次進行重寫操作。

2. 問題解決

找開發進行確認後，將該key進行了刪除，開發也說已經修改了程序，auto-aof-rewrite-percentage重新改為200。

結果只是消停了一陣子，不久後又出現一個類似的超大key，還是半夜報的警。

又找開發再次修改才真的算是改好了，和開發確認了下業務場景，發現該redis現在當做純緩存來用了，不需要數據持久化，於是果斷關掉AOF。

關閉aof持久化：

redis-03:6379> config get appendonly
1) "appendonly"
2) "yes"
redis-03:6379> config set appendonly no
OK

問題解決，萬事大吉。

四、後記

這個問題導致了多次的夜間報警，弄的心裡還是比較煩躁的，但是針對線上暴露的一些問題還是要和開發詳細溝通，一方面對於問題的原因、相關原理要儘可能的給開發講清楚，而不是隻要解決問題就萬事大吉，這樣可以避免類似的問題重複發生；另一方面，對於運維人員而言也要充分了解相關的業務場景才行。

分享到:

閱讀更多劉弋的文章

關鍵字: 虛擬機內存重寫

優化｜Redis AOF重寫導致的內存問題

相關文章:

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

為什麼只有edg賺錢？

網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？

我們買的新商品房還沒有拿到房產證，怎麼轉賣最好？

為什麼突厥人可以成功復國？是大唐的刀不鋒利了麼？

小高層16層高樓間距60米哪一層比較好？

金銀花盆栽好養嗎？怎麼養？

長城對於抵禦古代匈奴和蒙古人起到了多大作用？

什麼樹可以嫁接臘梅？

行情堪憂，還有多少教育機構的老師們五一假期有課上的？課時量多不多？

在農村“立夏節”都有哪些民間習俗？

男朋友失望分手，但對我還有感覺，答應我兩個月之後可以在一起，我應該怎麼做，才能改變之前他對我的看法？

工程分包乙方人員傷殘誰承擔？

有哪些看起來毫不相關的兩個歷史人物實際上有過聯繫？

13年雪鐵龍世嘉自動擋7萬多公里，沒有水泡事故，多少錢能買？

22+吃土少女17年就有駕駛證了，今年才開始開車，想買個二手昂克賽拉，或者有什麼好建議嗎？

如何騎車去臺灣騎行？

本人預算5萬左右，想買一輛二手法系車！求推薦？

14年進口馬自達5PK進口10年道奇酷威買哪個划算？

2020年，河南教育行業國務院特殊津貼推薦，河南大學並列第三，大家怎麼看？

本田CRV2019款1.5T舒適版油耗高嗎？

國外疫情如果沒有得到有效控制，世界會發生什麼事情？頭腦風暴？

本田XRV這款車的整體表現怎麼樣？我想買1.5T自動豪華版，全款多少錢？

現在存款有14萬，借了5萬還沒收回來，該做什麼好？

2070super和5700xt買哪個比較好？

生完二胎後，感覺自己有點抑鬱，總是想發火，特別煩躁，怎麼辦？

人這一生遇到的人和事為什麼感覺都像是必然的經歷？

現在校內校外到底教的是美式英語還是英式英語還是混搭英語？

上有老下有小，我們真的跳不出這個人生循環了嗎？

如果外面正在下小雨，你會突然想起了誰？

初中同學許久未見大學期間突然聯繫請吃飯，態度還良好，我給推了，會不會讓人很煩？

現在我覺得認真對某個人說我喜歡你什麼的這種話好惡心，我愛你更說不出口，好惡心，是什麼心理？

劇版的《何以笙簫默》和《再見王瀝川》哪一個更好看呢？

計算機專業本科能夠進入字節跳動、華為這些公司做開發嗎？是否還需要繼續讀研？

生完二胎的你們，現在有什麼感想？

華北適合種植蠶豆嗎？

華為手機更新EMUI10.1系統後效果咋樣？

大熱天蜜蜂老是爬到箱外結群正常嗎？

辣椒正是生長最佳期，偏偏有的辣椒苗蔫，不是病蟲害是咋回事？

手機相機發展的最終形態會是怎樣的？

華為為什麼不出一款5寸全面屏手機呢？我想應該會有很多人支持吧？

生吃山芋，生吃胡蘿蔔，還有哪些蔬菜可以生吃呢？

為什麼馬鈴薯不宜過早過遲播種？

疫情愈發嚴重，原油為何反而大漲？

生菜球很好吃，怎麼種植才能高產呢？

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？ ？

大家幫忙看看這個房子如果要砸牆的話，怎麼改比較好？

意蜂夏季喝什麼水降溫？

黃瓜種子催芽後種植需要打底水嗎？

書友們展示一下自我感覺發揮較好的作品，一起學習？

如果你正經歷生活中“餘歡水”式的悲劇，各種不順會怎麼想、怎麼做？-比奇堡的槓把子丶的回答-悟空問答

美國可以不斷印美元，但它為什麼不這麼做呢？-宋思考的回答-悟空問答

手抓餅怎麼做才好吃？-布穀姐美食日記的回答-悟空問答

擀麵條時，用什麼粉能有效防止麵條的粘連？-家常美食小廚房的回答-悟空問答

濟南至西安遊不走回頭路怎樣安排路線求大神指點？-自駕遊八方的回答-悟空問答

從濟南出發3天左右的自駕遊，不去海邊不去爬山，有什麼推薦的地方嗎？-泉城自駕遊俱樂部的回答-悟空問答

吳三桂為啥不接受削藩？做富家翁不香嗎？-老森的回答-悟空問答

玉米饅頭怎麼做？-明澤美食的回答-悟空問答

支付寶支付，微信支付對印鈔造幣公司有影響嗎？-澤哥愛基金2020的回答-悟空問答

央行數字貨幣誕生，能顛覆支付寶、微信支付的位置嗎？-慧算賬的回答-悟空問答

今年由於疫情的影響小學延期開學，暑假是否繼續上學補課呢？-PRINCE的回答-悟空問答

疫情之下，我們如何應對，老百姓該如何準備？-蒔涘的回答-悟空問答

湖南寧遠九嶷山美不美？有何遊玩攻略呢？-寶哥碎碎遊的回答-悟空問答

五一快到了，去國外旅遊安全還是國內旅遊安全，哪個地方最保險？-馬德里官方發言人的回答-悟空問答

疫情過後，你有什麼變化？（請用最簡單的語言陳述）？-滿足176482102的回答-悟空問答

男人一生愛過幾個女人才算正常？-鵬獻舞的回答-悟空問答

時間會治癒一個人的傷嗎？-小凡聊趣事的回答-悟空問答

為什麼美國確診58萬多，死亡兩萬多，還不宣佈美國為疫區國？-自在來賢的回答-悟空問答

孩子在學習看圖寫話的時候，不知道怎麼動筆，要怎麼引導？-草木一卒的回答-悟空問答

如何培養孩子畫畫的習慣？-觀上書苑的回答-悟空問答

小孩子學畫畫的圖案一般都去哪找比較好？-職場詭事的回答-悟空問答

繪畫真的需要天賦嗎？-大臉貓的畫的回答-悟空問答

為什麼有些人在小學對繪畫感興趣到了高中就不感興趣了？-學做書的蜜瓜的回答-悟空問答

調查一下，大家對於畫家一邊畫畫一邊做自媒體怎麼看？-當代書畫名家繆月紅的回答-悟空問答

孩子水彩畫可以自學嗎？-大墨蒲公英素質美育的回答-悟空問答

你覺得在英超哪些教練可以排在前三名（沒有時間限制）？-足球實戰營的回答-悟空問答

人在武漢，突然發燒38.3，全身發冷，不敢去醫院，怎麼辦？-同喜同樂的回答-悟空問答

美國目前感染人數暴增，這個數字是不是要被定義為“疫情國”了？-幸福家庭147007153的回答-悟空

裝修高手來幫忙看下144平，套內122平，怎麼三房改四房？？