Oracle 和 MySQL 的 JDBC 到底有多慢?

經常聽人說,數據庫的IO性能不佳,但說歸說,並沒有感性認識。我們現在就來實際測試一下,常用的Oracle和MySQL的JDBC讀取性能如何。

之所以測試JDBC,是因為大部分應用是JAVA寫的,也就只能用JDBC來訪問數據。這裡僅測試用JDBC讀出數據,併產生成Java的記錄對象(畢竟到了這一步才能在應用中使用),不作任何計算。

1. 數據來源

使用TPCH生成的數據,選用其中的customer表來做測試,數據記錄為3000萬行,8個字段。它生成的原始文本文件名為customer.tbl,文件大小為4.9G。利用數據庫提供的數據導入工具將此文件數據導入到Oracle和MySQL的數據表中。

2. 測試環境

在一臺Intel服務器上完成測試,2個Intel2670 CPU,主頻2.6G,共16核,內存64G。數據庫表數據及文本文件均存儲在同一塊SSD硬盤上。

所有測試均在服務器本機上完成,沒有消耗網絡傳輸時間。

3. 數據庫讀數測試

通過Oracle提供的JDBC接口,用SQL語句執行數據讀取。

Java寫起來麻煩,用SPL腳本執行測試:

Oracle 和 MySQL 的 JDBC 到底有多慢?

MySQL的測試代碼類似,不再贅述。

測試結果(時間單位:秒)

Oracle 和 MySQL 的 JDBC 到底有多慢?

第二次可能由於操作系統有了硬盤緩存,所以更快。因為我們主要是為了測試JDBC的讀取時間,所以就以第二次為準,減少數據庫本身從硬盤讀數的影響。每秒讀出行數也是按第二次時間來計算的,也就是說,Oracle每秒能讀出10萬行多數據,MySQL大概接近8萬行。當然這個值和表的字段數及類型都有關(customer表有8個字段),只是一種參考。

4. 文本文件對比

只從上面的數據量還沒有太多感性認識,我們再讀一下文本文件來對比。辦法是一樣的,從文件中讀出數據,並解析出記錄,不作任何計算。

編寫如下SPL腳本執行測試:

Oracle 和 MySQL 的 JDBC 到底有多慢?

測試結果是42秒!

這意味著,讀取文本要比讀取Oracle快281/42=6.69倍,比MySQL要快381/42=9.07倍!

我們知道,文本解析是個非常麻煩的事情,但即使這樣,從文本文件讀取數據還是遠遠快於從數據庫中讀數。Oracle和MySQL的IO實在是太慢了!

5. 二進制方式

我們進一步再看使用二進制方式的存儲格式的讀取性能,並和文本比對。

為了對比明顯,這次換一個更大的表,用TPCH中的orders表,有3億行數據,9個字段。

文本讀取的代碼和上面類似,讀取時間測試為438秒。

然後,我們將這個文本文件轉換成SPL組表,再寫代碼測試:

Oracle 和 MySQL 的 JDBC 到底有多慢?

測試結果是164秒,大概僅僅是文本讀取的三分之一。

這是情理之中的事情,因為二進制數據不再需要解析,可以直接產生對象,計算量少了很多,因而要更快。

需要說明的是,組表文件雖然採用列存格式,但在這裡讀出了所有列,並沒有比文本少取任何內容,沒有佔列存的便宜。事實上,因為讀所有列,使用列存還會吃點虧,如果採用SPL集文件(一種行存格式)還會更快。

6. 並行提速

從文件中取數還很容易實現並行,文本和組表都容易寫出並行程序。還是用上面的orders表為例來測試,使用4線程取數。

文本取數代碼:

Oracle 和 MySQL 的 JDBC 到底有多慢?

組表取數代碼:

Oracle 和 MySQL 的 JDBC 到底有多慢?

用SPL很容易實現數據分段和並行計算。

測試結果為:

文本 119秒

組表 43秒

與串行相比,接近了線性提升,將CPU的多核充分利用起來了。

數據庫中的數據則不容易簡單地實施分段並行,需要用WHERE條件去拼,結果很難說清到底是並行不力還是WHERE執行損失太多,測試結果的參考意義就打折扣了,這裡就不再做了。

7. 結論

數據庫(Oracle和MySQL)的JDBC性能非常非常差!比文本文件還要差5倍以上。而採用二進制數據時,會比文本再提高3倍的讀取性能。也就是說,合理格式的二進制文件會比數據庫有15倍以上的優勢。再考慮到並行因素,比數據庫快出幾十上百倍也是完全可能的。


分享到:


相關文章: