MySQL JDBC StreamResult通信原理淺析

2018-10-18 11:58:08 雲棲社區

使用MySQL JDBC讀取過較大數據量的人應該清楚（例如超過1GB），在讀取的時候內存很可能會Java堆內存溢出，而我們的解決方案是statement.setFetchSize(Integer.MIN_VALUE)並確保遊標是隻讀向前滾動的即可（為遊標的默認值），也可以強制類型轉換為com.mysql.jdbc.StatementImpl，然後調用其內部方法：enableStreamingResults()這樣讀取數據內存就不會掛掉了，這兩者達到的效果是一致的。當然也可以使用useCursorFetch，但是這種方式測試結果性能要比StreamResult慢很多，為什麼？在本文會闡述其大致的原理。

我在前面的部分文章和書籍中都有介紹過其MySQL JDBC在這一塊內部處理的代碼分成三個不同的類來完成的，不過我一直沒有去深究過數據庫和JDBC之間到底是如何通信的過程。有一段時間我一直認為這都屬於服務端行為或者是客戶端與服務端配合的行為，然後並不其然，今天我們來講一下這個行為是怎麼回事。

【先回顧一下簡單的通信】：

JDBC與數據庫之間的通信是通過Socket完成的，因此我們可以把數據庫當成一個SocketServer的提供方，因此當SocketServer返回數據的時候（類似於SQL結果集的返回）其流程是：服務端程序數據（數據庫） -> 內核Socket Buffer -> 網絡 -> 客戶端Socket Buffer -> 客戶端程序（JDBC所在的JVM內存）

到目前為止，IT行業中大家所看到的JDBC無論是：MySQL JDBC、SQL Server JDBC、PG JDBC、Oracle JDBC。甚至於是NoSQL的Client：Redis Client、MongoDB Client、Memcached，數據的返回基本也是這樣一個邏輯。

【使用MySQL JDBC默認直接讀取數據為什麼會掛？】

（1）MySQL Server方在發起的SQL結果集會全部通過OutputStream向外輸出數據，也就是向本地的Kennel對應的socket buffer中寫入數據，這是一次內存拷貝（內存拷貝這個不是本文的重點）。

（2）此時Kennel的Buffer有數據的時候就會把數據通過TCP鏈路（JDBC主動發起的Socket鏈路），回傳數據，此時數據會回傳到JDBC所在機器上，會先進入Kennel區域，同樣進入到一個Buffer區。

（3）JDBC在發起SQL操作後，Java代碼是在inputStream.read()操作上阻塞，當緩衝區有數據的時候，就會被喚醒，然後將緩衝區的數據讀取到Java內存中，這是JDBC端的一次內存拷貝。

（4）接下來MySQL JDBC會不斷讀取緩衝區數據到Java內存中，MySQL Server會不斷髮送數據。注意在數據沒有完全組裝完之前，客戶端發起的SQL操作不會響應，也就是給你的感覺MySQL服務端還沒響應，其實數據已經到本地，JDBC還沒對調用execute方法的地方返回結果集的第一條數據，而是不斷從緩衝器讀取數據。

（5）關鍵是這個傻帽就像一把這個數據讀取完，根本不管家裡放不放的下，就會將整個表的內容讀取到Java內存中，先是FULL GC，接下來就是內存溢出。

【JDBC參數上設置useCursorFetch=true可以解決】

這個方案配合FetchSize設置，確實可以解決問題，這個方案其實就是告訴MySQL服務端我要多少數據，每次要多少數據，通信過程有點像這樣：

這樣做就像我們生活中的那樣，我需要什麼就去超市買什麼，需要多少就去買多少。不過這種交互不像現在網購，坐在家裡就可以把東西送到家裡來，它一定要走路（網絡鏈路），也就是需要網絡的時間開銷，假如數據有1億數據，將FetchSize設置成1000的話，會進行10萬次來回通信；如果網絡延遲同機房0.02ms，那麼10萬次通信會增加2秒的時間，不算大。那麼如果跨機房2ms的延遲時間會多出來200秒（也就是3分20秒），如果國內跨城市10~40ms延遲，那麼時間將會1000~4000秒，如果是跨國200~300ms呢？時間會多出十多個小時出來。

在這裡的計算中，我們還沒有包含系統調用次數增加了很多，線程等待和喚醒的上下文次數變多，網絡包重傳的情況對整體性能的影響，因此這種方案看似合理，但是性能確不怎麼樣。

另外，由於MySQL方不知道客戶端什麼時候將數據消費完，而自身的對應表可能會有DML寫入操作，此時MySQL需要建立一個臨時表空間來存放需要拿走的數據。因此對於當你啟用useCursorFetch讀取大表的時候會看到MySQL上的幾個現象：

（1）IOPS飆升，因為存在大量的IO讀取，如果是普通硬盤，此時可能會引起業務寫入的抖動

（2）磁盤空間飆升，這塊臨時空間可能比原表更大，如果這個表在整個庫內部佔用相當大的比重有可能會導致數據庫磁盤寫滿，空間會在結果集讀取完成後或者客戶端發起Result.close()時由MySQL去回收。

（3）CPU和內存會有一定比例的上升，根據CPU的能力決定。

（4）客戶端JDBC發起SQL後，長時間等待SQL響應數據，這段時間就是服務端在準備數據，這個等待與原始的JDBC不設置任何參數的方式也表現出等待，在內部原理上是不一樣的，前者是一直在讀取網絡緩衝區的數據，沒有響應給業務，現在是MySQL數據庫在準備臨時數據空間，沒有響應給JDBC。

【Stream讀取數據】

我們知道第1種方式會導致Java掛掉，第2種方式效率低而且對MySQL數據庫的影響較大，客戶端響應也較慢，僅僅能夠解決問題而已，那麼現在來看下Stream讀取方式。

前面提到當你使用statement.setFetchSize(Integer.MIN_VALUE)或com.mysql.jdbc.StatementImpl.enableStreamingResults()就可以開啟Stream讀取結果集的方式，在發起execute之前FetchSize不能再手工設置，且確保遊標是FORWARD_ONLY的。

這種方式很神奇，似乎內存也不掛了，響應也變快了，對MySQL的影響也變小了，至少IOPS不會那麼大了，磁盤佔用也沒有了。以前僅僅看到JDBC中走了單獨的代碼，認為這是MySQL和JDBC之間的另一種通信協議，殊不知，它竟然是“客戶端行為”，沒錯，你沒看錯，它就是客戶端行為。

它在發起enableStreamingResults()的時候，幾乎不會做任何與服務端的交互工作，也就是服務端會按照方式1回傳數據，那麼服務端使勁向緩衝區懟數據，客戶端是如何扛得住壓力的呢？

在JDBC當中，當你開啟Stream結果集處理的時候，它並不是一把將所有數據讀取到Java內存中的，也就是圖1中並不是一次性將數據讀取到Java緩衝區的，而是每次讀取一個package（這個package可以理解成Java中的一個byte[]數組），一次最多讀取這麼多，然後會看是否繼續向下讀取保證數據的完整性。業務代碼是按照字節解析成行也業務方使用的。

服務端剛開始使勁向緩衝區懟數據，這些數據也會懟滿客戶端的內核緩衝區，當兩邊的緩衝區都被懟滿的時候，服務端的1個Buffer嘗試通過TCP傳遞數據給接收方時，此時由於消費方的緩衝區也是滿的，因此發送方的線程會阻塞住，等待對方消費，對方消費一部分，就可以推送一部分數據過去。連起來看就是JDBC的Stream數據未來得及消費之前，緩衝區數據如果是滿的，那麼MySQL發送數據的線程就阻塞住了，這樣確保了一個平衡（關於這一點，大家可以使用Java的Socket來嘗試下是否是這樣的）。

對於JDBC客戶端，數據獲取的時候每次都在本地的內核緩衝區當中，就在小區的快遞包裹箱拿回家一個距離，那麼自然比起每次去超市的RT要小得多了，而且這個過程是準備好的數據，所以沒有IO阻塞的過程（除非MySQL服務端傳遞的數據還不如消費端處理數據來得快，那一般也只有消費端不做任何業務，拿到數據直接放棄的測試代碼，才會發生這樣的事情），這個時候不論：跨機房、跨地區、跨國家，只要服務端開始響應就會源源不斷地傳遞數據過來，而這個動作即使是第1種方式也是必然需要經歷的過程。

相對於第1種方式，JDBC使用的時候會不導致內存溢出，即使讀取大表不內存溢出也會很長時間才會響應；不過這種方式相對方式1來講對數據庫影響相對較大，在傳遞的數據的過程中，相應的數據行會被上鎖（防止被修改），使用InnoDB會分段加鎖處理，使用MyISAM會加全表鎖，可能導致業務阻塞。

【理論上可以更進一步，只要你願意】

理論上這種方式是比較好的了，但是就完美主義來講，我們可以繼續探討一下，對於懶人來講，我們連到小區樓下快遞包裹箱去拿一下的動力也是沒有的，我們心裡想的就是要是誰給我拿到家裡來送到我嘴巴里，連嘴巴都給我掰開多好。

在技術上理論上確實可以做到這樣，因為JDBC從內核拷貝內存到Java當中是需要花時間的，要是有另一個人把這個事情做了，我在家裡幹別的事情的時候它就給我送到家裡來了，我要用的時候就直接從家裡來，這個時間豈不是省掉了。每錯，對於你來講確實省掉了，不過問題就是誰來送？

在程序中一定需要加一個線程來幹這個事情，把內核的數據拷貝到應用內存，甚至於解析成行數據，應用程序直接使用，但這一定完美嗎？其實這個中間就有個協調問題了，例如家裡要炒菜，缺一包調料，原本可以自己到樓下買，但是非要讓別人送家裡，這個時候

其它的菜都下鍋了，就剩一包調料，那麼你沒別的辦法，只能等這包調料送到家裡來以後才能進行炒菜的下一道工序。所以，在理想情況下，它可以節約很多次內存拷貝時間，會增加一些協調鎖的開銷。

那麼可以不可以直接從內核緩衝區讀取數據呢？

理論上也是可以的，在解釋這個問題之前，我們先了解下除了這一次內存拷貝還有那些：

JDBC按照二進制將內核緩衝區的數據讀取後，也會進一步解析成具體的結構化數據，由於此時要給業務方返回ResultSet的具體行的結構化數據，也就是生成RowData的數據一定會有一次拷貝，而且JDBC返回某些對象類型數據的時候（例如byte []數組），在某些場景的實現，它不希望你通過結果集修改返回結果中的byte []的內容（byte[1] = 0xFF）去修改ResultSet本身內容，可能還會再做1次內存拷貝，業務代碼使用過程中還會存在拼字符串，網絡輸出等，又是一堆的內存拷貝，這些在業務層面是無法避免的，相對這點點拷貝來講，簡直微不足道，所以我們也沒去幹這事情，以為從整體上看幾乎微不足道，除非你的程序瓶頸在這裡。

因此從整體上看內存拷貝是無法避免的，多的這一次無非是系統級的調用，開銷會更大一點，從技術上來講，我們是可以做到直接從內核態直接讀取數據的；但這個時候就需要按照字節將Buffer從的數據拿走才能讓遠程更多的數據傳遞過來，沒有第三個位置存放Buffer了，否則又回到了內核到應用的內存拷貝上來了。

相對來講，服務端倒是可以優化直接將數據通過直接IO的方式傳遞（不過這種方式數據的協議就和數據的存儲格式一致了，顯然只是理論上的），要真正做到自定義的協議，又要通過內核態數據直接發送，需要通過修改OS級別的文件系統協議，來達到轉換的目的。

分享到:

閱讀更多 雲棲社區 的文章

關鍵字: 內存淺析讀取

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"