解Bug之路-中間件"SQL重複執行"

佚名

2020-12-18 18:45:40

前言

我們的分庫分表中間件在線上運行了兩年多，到目前為止還算穩定。在筆者將精力放在處理各種災難性事件(例如中間件物理機宕機/數據庫宕機/網絡隔離等突發事件)時。竟然發現還有一些奇怪的corner case。現在就將排查思路寫成文章分享出來。

Bug現場

應用拓撲

應用通過中間件連後端多個數據庫,sql會根據路由規則路由到指定的節點,如下圖所示:

錯誤現象

應用在做某些數據庫操作時，會發現有比較大的概率失敗。他們的代碼邏輯是這樣:

<code> int

count

= updateSql(sql1); ... int

count

= updateSql(

"update test set value =1 where id in ("

100

","

200

") and status = 1; if( 0 == count ){ throw new RuntimeException("

更新失敗

"); } ...... int count = updateSql(sql3); ...

/<code>

即每做一次update之後都檢查下是否更新成功，如果不成功則回滾並拋異常。在實際測試的過程中，發現經常報錯，更新為0。而實際那條sql確實是可以更新到的(即報錯回滾後，我們手動執行sql可以執行並update count>0)。

中間件日誌

筆者根據sql去中間件日誌裡面搜索。發現了非常奇怪的結果,日誌如下:

<code>

2020

-03

-13

440

[NIOREACTOR

-20

-RW] frontIP=>ip1;

sqlID

12345678

;

rows

;

sql

update test

set

value =

where id

(

"1"

"2"

) and status =

;

start

403

;

time

24266

;

2020

-03

-13

440

[NIOREACTOR

-20

-RW] frontIP=>ip1;

sqlID

12345678

;

rows

;

sql

update test

set

value =

where id

(

"1"

"2"

) and status =

;

start

403

;

time

24591

; /<code>

由於中間件對每條sql都標識了唯一的一個sqlID,在日誌表現看來就好像sql執行了兩遍!由於sql中有一個in，很容易想到是否被拆成了兩條執行了。如下圖所示:

這條思路很快被筆者否決了，因為筆者explain並手動執行了一下，這條sql確實只路由到了一個節點。真正完全否決掉這條思路的是筆者在日誌裡面還發現，同樣的SQL會打印三遍！即看上去像執行了三次，這就和僅僅只in了兩個id的sql在思路上相矛盾了。

數據庫日誌

那到底數據真正執行了多少條呢？找DBA去撈一下其中的sql日誌，由於線下環境沒有日誌切割，日誌量巨大，搜索時間太慢。沒辦法，就按照現有的數據進行分析吧。

日誌如何被觸發

由於當前沒有任何思路，於是筆者翻看中間件的代碼,發現在update語句執行後,中間件會在收到mysql okay包後打印上述日誌。如下圖所示:

注意到所有出問題的update出問題的時候都是同一個NIOREACTOR線程先後打印了兩條日誌，所以筆者推斷這兩個okay大概率是同一個後端連接返回的。

什麼情況會返回多個okay?

這個問題筆者思索了很久，因為在筆者的實際重新執行出問題的sql並debug時，永遠只有一個okay返回。於是筆者聯想到，我們中間件有個狀態同步的部分,而這些狀態同步是將set auto_commit=0等sql拼接到應用發送的sql前面。即變成如下所示:

<code>sql可能為

set

auto_commit=

;

set

charset=gbk;>update test

set

value

where

(

"1"

"2"

) and status

; /<code>

於是筆者細細讀了這部分的代碼，發現處理的很好。其通過計算出前面拼接出的sql數量，再在接收okay包的時候進行遞減，最後將真正執行的那條sql處理返回。其處理如下圖所示:

但這裡確給了筆者一個靈感，即一條sql文本確實是有可能返回多個okay包的。

真相大白

在筆者發現(sql1;sql2;)這樣的拼接sql會返回多個okay包後，就立刻聯想到，該不會業務自己寫了這樣的sql發給中間件，造成中間件的sql處理邏輯錯亂吧。因為我們的中間件只有在對自己拼接(同步狀態)的sql做處理，明顯是無法處理應用傳過來即為拼接sql的情況。由於看上去有問題的那條sql並沒有拼接，於是筆者憑藉這條sql打印所在的reactor線程往上搜索，發現其上面真的有拼接sql!

<code>

2020

-03

-1311

040

[NIOREACTOR

-20

RW]frontIP=>ip1;

sqlID

12345678

;

rows

;

sql

update test_2

set

value =1 where id=1 and status = 1;update test_2

set

value =1 where id=2 and status = 1; /<code>

如上圖所示，(update1;update2)中update1的okay返回被驅動認為是所有的返回。然後應用立即發送了update3。前腳剛發送,update2的okay返回就回來了而其剛好是0，應用就報錯了(要不是0，這個錯亂邏輯還不會提前暴露)。那三條"重複執行"也很好解釋了，就是之前的拼接sql會有三條。

為何是概率出現

但奇怪的是，並不是每次拼接sql都會造成update3"重複執行"的現象，按照筆者的推斷應該前面只要是多條拼接sql就會必現才對。於是筆者翻了下jdbc驅動源碼，發現其在發送命令之前會清理下接收buffer，如下所示:

<code>MysqlIO.java

final

Buffer sendCommand(......){ ...... clearInputStream(); ...... send(

this

.sendPacket,

this

.sendPacket.getPosition()); ...... } /<code>

正是由於clearInputStream()使得錯誤非必現(暴露)，如果okay(update2)在應用發送第三條sql前先到jdbc驅動會被驅動忽略！讓我們再看一下不會讓update3"重複執行"的時序圖:

即根據okay(update2)返回的快慢來決定是否暴露這個問題,如下圖所示:

同時筆者觀察日誌，確實這種情況下"update1;update2"這條語句在中間件裡面日誌有兩條。

臨時解決方案

讓業務開發不用這些拼接sql的寫法後，再也沒出過問題。

為什麼不連中間件是okay的

業務開發這些sql是就在線上運行了好久，用了中間件後才出現問題。既然不連中間件是okay的，那麼jdbc必然有這方面的完善處理，筆者去翻了下mysql-connect-java(5.1.46)。由於jdbc裡面存在大量的兼容細節處理，筆者這邊只列出一些關鍵代碼路徑:

<code>MySQL JDBC 源碼 MySQLIO stack; executeUpdate |->executeUpdateInternel |->executeInternal |->execSQL |->sqlQueryDirect |->readAllResults (MysqlIO.java) readAllResults: ResultSetImpl readAllResults(......){ ......

while

(moreRowSetsExist) { ...... moreRowSetsExist = (this.serverStatus & SERVER_MORE_RESULTS_EXISTS) !=

; } ...... } /<code>

正確的處理流程如下圖所示:

而我們中間件的源碼確實這麼處理的:

<code>

public

void

okResponse

(

byte

[] data, BackendConnection conn)

{ ...... ok.serverStatus = source.isAutocommit() ?

; ok.write(source); ...... } /<code>

select也"重複執行"了

解決完上面的問題後，筆者在日誌裡竟然發現select盡然也有重複的，這邊並不會牽涉到okay包的處理，難道還有問題？日誌如下所示:

<code>

2020

-03

-13

040

[NIOREACTOR

-20

RW]frontIP=>ip1;

sqlID

12345678

;

rows

;select abc;

2020

-03

-13

045

[NIOREACTOR

-21

RW]frontIP=>ip2;

sqlID

12345678

;

rows

;select abc; /<code>

從不同的REACTOR線程號(20RW/21RW)和不同的frontIP(ip1,ip2)來看是兩個連接執行了同樣的sql,但為何sqlID是一樣的？任何一個詭異的現象都必須一查到底。於是筆者登錄到應用上看了下應用日誌，確實應用有兩個不同的線程運行了同一條sql。那肯定是中間件日誌打印的問題了,筆者很快就想通了其中的關竅，我們中間件有個對同樣sql緩存其路由節點結構體的功能(這樣下一次同樣sql就不必解析，降低了CPU)，而sqlID信息正好也在那個路由節點結構體裡面。如下圖所示:

這個緩存功能感覺沒啥用(因為線上基本是沒有相同sql的)，於是筆者在筆者優化的閃電模式下(大幅度提高中間件性能)將這個功能禁用掉了，沒想到為了排查問題而開啟的詳細日誌碰巧將這個功能開啟了。

總結

任何系統都不能說百分之百穩定可靠，尤其是不能立flag。在線上運行了好幾年的系統也是如此。只有對所有預料外的現象進行細緻的追查與深入的分析並解決，才能讓我們的系統越來越可靠。

原文：https://my.oschina.net/alchemystar/blog/3208851

作者：無毀的湖光-Al

前言

Bug現場

應用拓撲

錯誤現象

中間件日誌

數據庫日誌

日誌如何被觸發

什麼情況會返回多個okay?

真相大白

為何是概率出現

臨時解決方案

為什麼不連中間件是okay的

select也"重複執行"了

總結

相關文章:

LOL奧恩BUG使用者遭受制裁，騰訊：封號三年

女明星們砸了那麼多錢，也逃不過這個美貌 bug

怎樣解決蘋果手機 iOS13.1以內系統的各種 BUG？

LOL錘石西部魔影BUG引熱議 網友：比賽應該禁止使用

王者榮耀：百里守約為了給李元芳一槍，卻遭遇了bug

遊戲裡的奉上搞笑bug

元氣騎士：水壺“沸騰”了！玩家開創水之祕術“水漫金山”！

1024程序員節，向改變世界的程序員致敬

王者榮耀體驗服：西施再調整，馬可變黃恢復

王者榮耀策劃迴應貂蟬二技能Bug：距離問題，不是bug

王者榮耀出現重大福利？上線登陸就送英雄皮膚和各種碎片

蘋果發佈IOS13.3最新測試版！新增以下這幾點，人性化十足

某寶平臺國際大牌香水價格漏洞，被羊毛黨掏空庫存，老闆血虧

《輻射76》NPC存在“盜屍”bug：奪走玩家神裝不歸還

期貨軟件文華財經有個小“BUG”……

iOS 14 Bug 集合、跑分數據：你碰到了嗎

安安親子館牛津樹精讀練習：《Big, Bad Bug》

你所經歷的哪些事情讓你懷疑這個世界是假的/有 bug 的？

程序員為什麼一定要加班？

小程序怎麼製作？帶你看懂小程序的製作流程

裴擒虎天狼狩獵者隱藏BUG，堪比開掛，官方緊急發文

誰能告訴我是什麼情況？bug？

一例 Go 編譯器代碼優化 bug 定位和修復解析

刺激戰場這個地方可以無限拿藥，你知道嗎？

亞索無限EQ被修護？不慌，還有延遲R，騷男現場表演快樂風男

雲頂日報0427 10.9版本更新預覽 六人羈絆全部被砍

《動物森友會》再爆全新「複製物品」BUG！只要兩張桌子就搞定

絕地求生4.29停機維護五小時，修復一系列BUG，關鍵的還是沒修復

《荒野行動》無奇不有的BUG——請借我借我一雙慧眼吧

巴菲特投資邏輯最大“bug”，一個74歲男人，害苦了一個89歲老人

給搬磚練號黨的2個BUG福利

紅色警戒2：紅警中那些你不知道的BUG技巧

萬萬沒想到，程序員的一天竟然是這樣....

賽爾號：曾經存在的BUG，知道的已把任務做完，你發現了嗎？

看完這波程序員才能看懂的GIF後，我不厚道的笑了！

拼多多利用100元BUG無門檻券的用戶被強制退款

iOS13 驚現神奇 BUG，可以隱藏桌面圖標，非常好用

程序的Bug

微軟 Win10 仍存在刪除個人配置文件數據 Bug

看完《復仇者聯盟4》你會發現有哪些 bug？

每週一喂丨網絡安全有一個大“BUG”，你絕對想不到答案！

無限火力“BUG成了”國外以玩瘋！該英雄可以使用黃金炮？想輸

今天起走ETC通道顯示全程費用-今日頭條-手機光明網

DNF科技黑暗周來臨，你中槍了麼？

拼多多回應bug 或將使用法律手段追回損失金額

小米mix2s更新10.2.2.0穩定版,更新嗎

英雄聯盟：遊戲中堪稱“BUG”的幾位英雄

雲頂之弈：官方贈送的免費滿配小隊，快來點擊領取吧

那些讓你手足無措的“BUG”，護膚品就能解決

開源街機模擬器MAME 發佈0.205 版，新版本修復了與 MAMETesters 相關的一些 bug ，並新增了 Eagle Shot Golf、Galaxy Gunners、Grand Prix Star、Legend of Hero Tonma 等數款遊戲支持。

潛逃壓力過大暴瘦40多斤，一涉黑A級通緝犯在河北投案自首

當我們在談 SaaS 的時候，在談什麼？

合同詐騙的類型有哪些？企業無力償還借款是否構成合同詐騙罪？

5月西安招聘會時間安排來了！找工作的別錯過

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

全球鬧「美元荒」帶動穩定幣需求暴增！以太坊交易量創近兩年新高

“幫助當地居民解決用水難題”-今日頭條-手機光明網

灌籃高手無水印壁紙，每一張都是回憶

通遼藍天救援隊成功解救遼河公園水上被困群眾

5月6日·武漢要聞及抗擊肺炎快報

肖副省長等省市領導到孝感市楚澴中學調研九年級復學暨疫情防控常態化工作

相聲界的顏值擔當張雲雷稱號大揭祕

美國百年薅羊毛攻略

《全職高手》：一口氣刷了10集，對楊洋路轉粉了

共同承擔責任！Rookie談BP問題：輸了是我們打得太臭

LOL錘石西部魔影BUG引熱議網友：比賽應該禁止使用

雲頂日報0427 10.9版本更新預覽六人羈絆全部被砍

應急科普丨“五一” 期間氣溫回升謹防森林火災隱患