10 分鐘讓你明白 MySQL 是如何利用索引的?

一、前言

在 MySQL 中進行 SQL 優化的時候,經常會在一些情況下,對 MySQL 能否利用索引有一些迷惑。

譬如:

MySQL 在遇到範圍查詢條件的時候就停止匹配了,那麼到底是哪些範圍條件?

MySQL 在 LIKE 進行模糊匹配的時候又是如何利用索引的呢?

MySQL 到底在怎麼樣的情況下能夠利用索引進行排序?

今天,我將會用一個模型,把這些問題都一一解答,讓你對 MySQL 索引的使用不再畏懼

二、知識補充

key_len

EXPLAIN 執行計劃中有一列 key_len 用於表示本次查詢中,所選擇的索引長度有多少字節,通常我們可藉此判斷聯合索引有多少列被選擇了。

在這裡 key_len 大小的計算規則是:

一般地,key_len 等於索引列類型字節長度,例如 int 類型為 4 bytes,bigint 為 8 bytes;

如果是字符串類型,還需要同時考慮字符集因素,例如:CHAR(30) UTF8 則 key_len 至少是 90 bytes;

若該列類型定義時允許 NULL,其 key_len 還需要再加 1 bytes;

若該列類型為變長類型,例如 VARCHAR(TEXT\BLOB 不允許整列創建索引,如果創建部分索引也被視為動態列類型),其 key_len 還需要再加 2 bytes;

三、哪些條件能用到索引

首先非常感謝登博,給了我一個很好的啟發,我通過 * 他的文章 *,然後結合自己的理解,製作出了這幅圖

10 分鐘讓你明白 MySQL 是如何利用索引的?

乍一看,是不是很暈,不急,我們慢慢來看

圖中一共分了三個部分:

Index Key :MySQL 是用來確定掃描的數據範圍,實際就是可以利用到的 MySQL 索引部分,體現在 Key Length。

Index Filter:MySQL 用來確定哪些數據是可以用索引去過濾,在啟用 ICP 後,可以用上索引的部分。

Table Filter:MySQL 無法用索引過濾,回表取回行數據後,到 server 層進行數據過濾。

我們細細展開。

Index Key

Index Key 是用來確定 MySQL 的一個掃描範圍,分為上邊界和下邊界。

MySQL 利用 =、>=、> 來確定下邊界(first key),利用最左原則,首先判斷第一個索引鍵值在 where 條件中是否存在,如果存在,則判斷比較符號,如果為 (=,>=) 中的一種,加入下邊界的界定,然後繼續判斷下一個索引鍵,如果存在且是(>),則將該鍵值加入到下邊界的界定,停止匹配下一個索引鍵;如果不存在,直接停止下邊界匹配。

exp:idx_c1_c2_c3(c1,c2,c3)where c1>=1 and c2>2 and c3=1--> first key (c1,c2)--> c1 為 '>=' ,加入下邊界界定,繼續匹配下一個 -->c2 為 '>',加入下邊界界定,停止匹配

上邊界(last key)和下邊界(first key)類似,首先判斷是否是否是 (=,<=) 中的一種,如果是,加入界定,繼續下一個索引鍵值匹配,如果是(

exp:idx_c1_c2_c3(c1,c2,c3)where c1<=1 and c2=2 and c3<3--> first key (c1,c2,c3)--> c1 為 '<=',加入上邊界界定,繼續匹配下一個 --> c2 為 '='加入上邊界界定,繼續匹配下一個 --> c3 為 '

注:這裡簡單的記憶是,如果比較符號中包含'='號,'>='也是包含'=',那麼該索引鍵是可以被利用的,可以繼續匹配後面的索引鍵值;如果不存在'=',也就是'>','

Index Filter

字面理解就是可以用索引去過濾。也就是字段在索引鍵值中,但是無法用去確定 Index Key 的部分。

exp:idex_c1_c2_c3where c1>=1 and c2<=2 and c3 =1index key --> c1index filter--> c2 c3

這裡為什麼 index key 只是 c1 呢?因為 c2 是用來確定上邊界的,但是上邊界的 c1 沒有出現 (<=,=),而下邊界中,c1 是 >=,c2 沒有出現,因此 index key 只有 c1 字段。c2,c3 都出現在索引中,被當做 index filter.

Table Filter

無法利用索引完成過濾,就只能用 table filter。此時引擎層會將行數據返回到 server 層,然後 server 層進行 table filter。

四、Between 和 Like 的處理

那麼如果查詢中存在 between 和 like,MySQL 是如何進行處理的呢?

Between

wherec1 between'a'and'b' 等價於 wherec1>='a'andc1<='b',所以進行相應的替換,然後帶入上層模型,確定上下邊界即可

Like

首先需要確認的是 % 不能是最在最左側, wherec1 like'%a' 這樣的查詢是無法利用索引的,因為索引的匹配需要符合最左前綴原則

wherec1 like'a%' 其實等價於 wherec1>='a'andc1

五、索引的排序

在數據庫中,如果無法利用索引完成排序,隨著過濾數據的數據量的上升,排序的成本會越來越大,即使是採用了 limit,但是數據庫是會選擇將結果集進行全部排序,再取排序後的 limit 記錄,而且 MySQL 針對可以用索引完成排序的 limit 有優化,更能減少成本。

Make sure it uses index It is very important to have ORDER BY with LIMIT executed without scanning and sorting full result set, so it is important for it to use index – in this case index range scan will be started and query execution stopped as soon as soon as required amount of rows generated.

10 分鐘讓你明白 MySQL 是如何利用索引的?

存在一張表,c1,c2,c3 上面有索引, selectc1,c2,c3fromt1; 查詢走的是索引全掃描,因此呈現的數據相當於在沒有索引的情況下 selectc1,c2,c3fromt1 orderbyc1,c2,c3; 的結果

因此,索引的有序性規則是怎麼樣的呢?

c1=3 —> c2 有序,c3 無序 c1=3,c2=2 — > c3 有序 c1 in(1,2) —> c2 無序 ,c3 無序

有個小規律,idxc1c2_c3,那麼如何確定某個字段是有序的呢?c1 在索引的最前面,肯定是有序的,c2 在第二個位置,只有在 c1 確定一個值的時候,c2 才是有序的,如果 c1 有多個值,那麼 c2 將不一定有序,同理,c3 也是類似


分享到:


相關文章: