Mysql百萬級數據量級下,如何高效的遷移到Redis?

前言

隨著系統的運行,數據量變得越來越大,單純的將數據存儲在mysql中,已然不能滿足查詢要求了,此時我們引入Redis作為查詢的緩存層,將業務中的熱數據保存到Redis,擴展傳統關係型數據庫的服務能力,用戶通過應用直接從Redis中快速獲取常用數據,或者在交互式應用中使用Redis保存活躍用戶的會話,都可以極大地降低後端關係型數據庫的負載,提升用戶體驗。

傳統命令的缺點

使用傳統的redis client命令在大數據量的導入場景下存在如下缺陷:

由於redis是單線程模型,雖然避免了多線程下線程切換所耗費的時間,單一順序的執行命令也很快,但是在大批量數據導入的場景下,發送命令所花費的時間和接收服務器響應結果耗費的時間就會被放大。

假如需要導入100萬條數據,那光是命令執行時間,就需要花費100萬*(t1 + t2)。

Mysql百萬級數據量級下,如何高效的遷移到Redis?

除了逐條命令發送,當然redis設計肯定也會考慮這個問題,所以出現了pipelining管道模式。

Mysql百萬級數據量級下,如何高效的遷移到Redis?

但是pipelining在命令行中是沒有的,使得我們又需要編寫新的處理代碼,來接收批量的響應。但是隻有很少很少的客戶端代碼支持,比如php-redis的擴展就不支持異步。

pipelining管道模式,其實就是減少了TCP連接的交互時間,當一批命令執行完畢後,一次性發送結果。

其實現原理是採用FIFO(先進先出)的隊列來保證數據的順序性。

只有一小部分客戶端支持非阻塞I/O,並不是所有的客戶端都能夠以一種有效的方式解析應答,以最大化吞吐量。

由於這些原因,將龐大數據導入到Redis的首選方法是生成一個包含Redis協議數據格式,批量的發送過去。

數據導入Redis熱身

採用nc命令導入數據

nc是netcat的簡寫,nc的作用有:

(1)實現任意TCP/UDP端口的偵聽,增加-l參數後,nc可以作為server以TCP或UDP方式偵聽指定端口

(2)端口的掃描,nc可以作為client發起TCP或UDP連接

(3)機器之間傳輸文件

(4)機器之間網絡測速

Mysql百萬級數據量級下,如何高效的遷移到Redis?

Mysql百萬級數據量級下,如何高效的遷移到Redis?

採用pipe模式導入數據

然而,使用nc監聽並不是一個非常可靠的方式來執行大規模的數據導入,因為netcat並不真正知道何時傳輸了所有數據,也無法檢查錯誤。在2.6或更高版本的Redis中,Redis -cli腳本支持一種稱為pipe管道模式的新模式,這種模式是為了執行大規模插入而設計的。使用管道模式的命令運行如下:

Mysql百萬級數據量級下,如何高效的遷移到Redis?

由上圖,可以看到pipe命令的返回結果,txt文件中有多少行命令,返回的replies數就是多少,errors表示其中執行錯誤的命令條數。

redis協議學習

協議的格式為:

<code>*  \\r\\n$  \\r\\n \\r\\n...$ \\r\\n \\r\\n/<code>

比如:插入一條hash類型的數據。

<code>HSET id book1 book_description1/<code>

根據Redis協議,總共有4個部分,所以開頭為*4,其餘內容解釋如下:

內容長度協議命令HSET4$4id2$2book15$5book_description117$17

注意一下:HSET命令本身也作為協議的其中一個參數來發送。

構造出來的協議數據結構:

<code>*4\\r\\n$4\\r\\nHSET\\r\\n$2\\r\\nid\\r\\n$5\\r\\nbook1\\r\\n$17\\r\\nbook_description1\\r\\n格式化一下:*4\\r\\n$4\\r\\nHSET\\r\\n$2\\r\\nidvvvv\\r\\n$5\\r\\nbook1\\r\\n$17\\r\\nbook_description1\\r\\n/<code>

RESP協議 bulk

Redis客戶機使用一種稱為RESP (Redis序列化協議)的協議與Redis服務器通信。

redis-cli pipe模式需要和nc命令一樣快,並且解決了nc命令不知道何時命令結束的問題。

在發送數據的同時,它同樣會去讀取響應,嘗試去解析。

一旦輸入流中沒有讀取到更多的數據之後,它就會發送一個特殊的20比特的echo命令,標識最後一個命令已經發送完畢如果在響應結果中匹配到這個相同數據後,說明本次批量發送是成功的。

使用這個技巧,我們不需要解析發送給服務器的協議來了解我們發送了多少命令,只需要解析應答即可。

在解析應答時,redis會對解析的應答進行一個計數,在最後能夠告訴用戶大量插入會話向服務器傳輸的命令的數量。也就是上面我們使用pipe模式實際操作的響應結果。

將輸入數據源換成mysql

上面的例子中,我們以一個txt文本為輸入數據源,使用了pipe模式導入數據。

基於上述協議的學習和理解,我們只需要將mysql中的數據按照既定的協議通過pipe模式導入Redis即可。

實際案例--從Mysql導入百萬級數據到Redis

首先造數據

由於環境限制,所以這裡沒有用真實數據來實現導入,那麼我們就先使用一個存儲過程來造一百萬條數據把。使用存儲過程如下:

<code>DELIMITER $$USE `cb_mon`$$DROP PROCEDURE IF EXISTS `test_insert`$$CREATE DEFINER=`root`@`%` PROCEDURE `test_insert`()BEGIN        DECLARE i INT DEFAULT 1;        WHILE i<= 1000000            DO            INSERT INTO t_book(id,number,NAME,descrition)            VALUES (i, CONCAT("00000",i) , CONCAT('book',i)            , CONCAT('book_description',i));                SET i=i+1;        END WHILE ;        COMMIT;    END$$DELIMITER ;/<code>

調用存儲過程:

<code>CALL test_insert();/<code>

查看錶數據:

按協議構造查詢語句

按照上述redis協議,我們使用如下sql來構造協議數據

<code>SELECT  CONCAT(    "*4\\r\\n",    "$",    LENGTH(redis_cmd),    "\\r\\n",    redis_cmd,    "\\r\\n",    "$",    LENGTH(redis_key),    "\\r\\n",    redis_key,    "\\r\\n",    "$",    LENGTH(hkey),    "\\r\\n",    hkey,    "\\r\\n",    "$",    LENGTH(hval),    "\\r\\n",    hval,    "\\r"  )FROM  (SELECT    "HSET" AS redis_cmd,    id AS redis_key,    NAME AS hkey,    descrition AS hval  FROM    cb_mon.t_book  ) AS t limit 1000000 /<code>

並將內容保存至redis.sql 文件中。

編寫腳本使用pipe模式導入redis

編寫shell腳本。由於我在主機上是通過docker安裝的redis和mysql,以下腳本供參考:

Mysql百萬級數據量級下,如何高效的遷移到Redis?

<code>#!/bin/bashstarttime=`date +'%Y-%m-%d %H:%M:%S'`docker exec -i 899fe01d4dbc mysql --default-character-set=utf8   --skip-column-names --raw < ./redis.sql| docker exec -i 4c90ef506acd redis-cli --pipeendtime=`date +'%Y-%m-%d %H:%M:%S'`start_seconds=$(date --date="$starttime" +%s);end_seconds=$(date --date="$endtime" +%s);echo "腳本執行耗時: "$((end_seconds-start_seconds))"s"/<code>

執行截圖:

Mysql百萬級數據量級下,如何高效的遷移到Redis?

可以看到百萬級的數據導入redis,只花費了7秒,效率非常高。

注意事項

如果mysql表特別大,可以考慮分批導入,或者將表拆分,否則在導入過程中可能會發生

<code>lost connection to mysql server during query/<code>

由於max_allowed_packed和超時時間限制,查詢數據的過程中,可能會造成連接斷開,所以在數據表的數據量特別大的時候,需要分頁或者將表拆分導入。

總結

本篇文章主要探討了,Mysql百萬級數據量級下,如何高效的遷移到Redis中去,逐步實現目標的過程中,總結了如下幾點

  1. redis單線程執行命令,避免了線程切換所消耗的時間,但是在超大數據量級下,其發送、響應接收的時延不可忽視。
  2. 網絡nc命令的應用場景,及在數據導入時存在的缺點。
  3. redis RESP協議的理解和應用。
  4. 百萬量級Mysql數據的Redis快速導入案例。

原出處:https://segmentfault.com/a/1190000021719490


分享到:


相關文章: