Mysql索引掃盲總結

2020-03-25 09:21:26 Java架構人生

文章來源：https://mp.weixin.qq.com/s/hsvdbGXBcHPA0JOO7gkpjw

什麼是索引？索引為什麼查詢快，索引的數據結構是什麼？聚簇索引/非聚簇索引區別？什麼是覆蓋索引？唯一索引/普通索引？單列索引/聯合索引區別？Full-index全文索引？什麼是下推索引？什麼是最左匹配，查詢回表？哪些字段適合建索引？為什麼一般主鍵索引最好是自增長的, 儘量短的數值類型？為什麼有些SQL不走索引？索引的最佳實踐？

索引為什麼快

索引的本質是空間換時間。

+bonus: 加快檢索速度，加快多表連接
-price: 額外空間開銷，維護索引的額外時間開銷

所以我們通過索引這個緩存來提高數據查詢的效率。

假如我們自己設計數據庫索引的話，我們會選取什麼樣的數據結構呢？下面我們來分析下各種查詢常見的數據結構的性格，看看選誰是最合適的人選。

數據結構比較

有序數組：等值查詢和範圍查詢場景中的性能就都非常優秀。特定值查詢用二分法就可以快速得到，這個時間複雜度是 O(log(N))。類似between[x, y]的範圍查詢也比較快，先用值查詢二分法找到x, 然後向後遍歷，知道找到y。但是他最大的問題是插入或者刪除一個新數據，這個新數據後面的整個數組都需要挪動，複雜度是O(N)。
HashMap：雖然可以快速定位，值查詢的時間複雜度是O(1), 但是Hashmap沒有順序，進行範圍查詢的話複雜度高是O(N)。
二叉樹查找樹BST：二叉樹的高度不均勻，不能自平衡，查找效率跟數據量有關（樹的高度），在極端情況下（插入數據本身就是有序的）這棵樹就退化成鏈表了，查詢實際複雜度是O(N)
紅黑樹：是平衡的BST，性能穩定在O(logN), 但因為是二叉樹，樹的高度隨著數據量增加而增加，並且需要再平衡。適合數據都在內存的情況，比如Java裡的HashMap。但是在硬盤尋址的場景下IO成本會比較高。
B-Tree：相比二叉樹來說是一種多路平衡查詢樹，但是B樹不管葉子節點還是非葉子節點，都會保存數據，這樣導致在非葉子節點中能保存的指針數量變少（有些資料也稱為扇出），指針少的情況下要保存大量數據，只能增加樹的高度，導致IO操作變多，查詢性能變低；
B+Tree: 從物理存儲結構上說是N叉樹，B-Tree和B+Tree都以頁(4K)來劃分節點的大小，但是由於B+Tree的中間節點（非葉子節點）不存儲數據，存的是索引信息，索引包含Key和Point指針。因此B+Tree能夠在同樣大小的節點中，存儲更多的key，提高查找效率。

每一個索引在 InnoDB 裡面對應一棵 B+ 樹。以 InnoDB 的一個整數字段索引為例，這個 N 差不多是 1200。這棵樹高是 4 的時候，就可以存 1200 ^(4-1) 個值，這已經 17 億了。考慮到樹根的數據塊總是在內存中的，一個 10 億行的表上一個整數字段的索引，查找一個值最多隻需要訪問 3 次磁盤。

聚簇索引/非聚簇索引

區別主要看葉子節點存了什麼數據：

在 InnoDB 裡，索引B+ Tree的葉子節點存儲了整行數據的是主鍵索引，也被稱之為聚簇索引。

而索引B+ Tree的葉子節點存儲了主鍵的值的是非主鍵索引，也被稱之為非聚簇索引。

聚簇索引查詢相對會更快一些，因為主鍵索引樹的葉子節點直接就是我們要查詢的整行數據了。而非主鍵索引的葉子節點是主鍵的值，查到主鍵的值以後，還需要再通過主鍵的值再進行一次查詢（這個過程叫做回表, 也就是查了2個索引樹）。

覆蓋索引

覆蓋索引（covering index）指一個查詢語句的執行只用從索引中就能夠取得，不必從數據表中讀取。覆蓋索引不是索引樹，是一個結果。當一條查詢語句符合覆蓋索引條件時，MySQL只需要通過索引就可以返回查詢所需要的數據，這樣避免了查到索引後再返回表操作，減少I/O提高效率。

例如表T中有一個普通索引 idx_key(key)，那麼：

<code>-- 索引覆蓋了
select id from T where key = 'test';

-- 索引沒覆蓋，需要回表
select * from T where key = 'test';/<code>

問題，為什麼第一個SQL索引覆蓋了? 非聚簇索引的葉子節點存的是id。

唯一索引/普通索引

唯一索引和普通索引在查詢和更新的時候區別：

唯一索引找到滿足的第一條記錄會立馬返回，通知檢索（因為唯一性的保證）。但是這個區別並沒有很大的性能區別，因為Innodb是按照頁（默認16KB）讀寫的，讀數據的時候是從B+樹的根節點開始搜索，搜索的時候將整個頁從硬盤加載到內存。
唯一索引在插入的時候會多做些判斷，想要做這個判斷就必須先把數據頁讀入內存。但是普通索引不需要做這個判斷，就可以把需要更新的數據做判斷：如果數據在內存則直接更新；如果不在也不加載內存，而是先寫入change buffer，等下次查詢的時候再執行change buffer。這樣普通索引會相對性能好一些。但是注意：如果業務場景是寫入後立馬有查詢，其實還是會立馬需要把數據頁加載到內存，這樣的情況下其實並不能帶來優化IO的操作。

Full-index全文索引

Mysql 5.6 引入了全文索引Full text index，但是隻能適用於分詞的情況，如果是匹配字符串的一部分就不適用了。

MySQL支持三種模式的全文檢索模式：自然語言模式（IN NATURAL LANGUAGE MODE），即通過MATCH AGAINST 傳遞某個特定的字符串來進行檢索。布爾模式（IN BOOLEAN MODE），可以為檢索的字符串增加操作符，例如“+”表示必須包含，“-”表示不包含，“*”表示通配符（這種情況，即使傳遞的字符串較小或出現在停詞中，也不會被過濾掉），其他還有很多特殊的布爾操作符，可以通過如下參數控制：查詢擴展模式（WITH QUERY EXPANSION）, 這種模式是自然語言模式下的一個變種，會執行兩次檢索，第一次使用給定的短語進行檢索，第二次是結合第一次相關性比較高的行進行檢索。

單列索引/聯合索引

對於一個表裡的多個列，比如是有些列高頻查詢，有些列低頻查詢。如果為每一個低頻的列單獨建立索引感覺有些浪費，如果不建立索引又只能走全表掃描。所以我們經常用聯合索引來解決這個問題，聯合索引如idx_key1_key2_key3(key1,key2,key3)，相當於創建了（key1）、(key1,key2)和(key1,key2,key3)三個索引，那麼在建立聯合索引的時候，如何安排索引內的字段順序？

如果通過調整順序，可以少維護一個索引，那麼這個順序往往就是需要優先考慮採用

按照字段在查詢條件中出現的頻度建立索引

我們考慮key1 是最常用的列放最前面，key2和key3不常用。

上面這種建立一個聯合索引就實際上包含了3個索引的特性就是最左匹配原則。這個最左匹配可以是聯合索引的最左 N 個字段，也可以是字符串索引的最左 M 個字符。

總結起來

索引的匹配規則是
左匹配的
只有複合索引的第一個字段出現在查詢條件中，該索引才可能被使用
有了(A,B,C)，就等於同時擁有了(A)，（A,B）和 (A,B,C) 三個索引
只要索引內，開始用範圍查詢，後面的索引就失效了。**這裡注意：**IN 在 where 中，也屬於準確查詢，不會使後面索引失效。

什麼是下推索引？

在MySQL 5.6中，引入了Index Condition Pushdown Optimization 優化。本質是針對那些需要回表查找的部分如果索引裡已經包含了該列，那麼先在索引裡做過濾判斷。

以用戶表的聯合索引（name, age）為例。如果現在有一個需求：檢索出表中“名字第一個字是張，而且年齡是 10 歲的所有男孩”。那麼，SQL 語句是這麼寫的：

<code>mysql> select * from tuser where name like '張 %' and age=10 and ismale=1;/<code>

我們已經知道了前綴索引規則，所以這個語句在搜索索引樹的時候，只能用 “張”，找到第一個滿足條件的記錄 ID3。當然，這還不錯，總比全表掃描要好。然後呢？當然是判斷其他條件是否滿足。在 MySQL 5.6 之前，只能從 ID3 開始一個個回表。到主鍵索引上找出數據行，再對比字段值。而 MySQL 5.6 引入的索引下推優化（index condition pushdown)，可以在索引遍歷過程中，對索引中包含的字段先做判斷，直接過濾掉不滿足條件的記錄，減少回表次數。

哪些字段適合建索引?

出現在 SELECT、UPDATE、DELETE 語句的 WHERE 從句中的列

包含在 ORDER BY、GROUP BY、DISTINCT 中的字段

並不要將符合 1 和 2 中的字段的列都建立一個索引，通常將 1、2 中的字段建立聯合索引效果更好

多表 join 的關聯列

為什麼有些SQL不走索引？

使用了通配符開頭，NOT IN 語句或者

聯合索引的第一個字段查詢條件中

數據引擎的優化器選錯了索引（可以適當使用 force index 語句來優化）

為什麼一般主鍵索引最好是自增的, 儘量短的數值類型？

自增

結合B+Tree的特點，自增主鍵是連續的，在插入過程中儘量減少頁分裂，即使要進行頁分裂，也只會分裂很少一部分。並且能減少數據的移動，每次插入都是插入到最後。總之就是減少分裂和移動的頻率。

由於InnoDB索引的特性，因此如果主索引不是自增的(id作主鍵)，那麼每次插入新的數據，都很可能對B+Tree的主索引進行重整，影響性能。因此，儘量以自增id作為InnoDB的主索引。

這就是為什麼主鍵的Id需求一般是整體趨勢遞增的原因。

短數

每個非主鍵索引的葉子節點上都是主鍵的值。如果用UUID，比如 b8a52179-7d54-46de-b1de-d88911a42790 做主鍵，那麼每個二級索引的葉子節點佔用約 36字節，而如果用整型做主鍵，則只要 4字節，如果是長整型（bigint）則是 8字節。所以，主鍵長度越小，普通索引的葉子節點就越小，普通索引佔用的空間也就越小。

利用了twitter的雪花算法來儘量做到生成短數字且趨勢自增的的ID。

索引的最佳實踐？

要建索引

定義主鍵的數據列一定要建立索引。
定義有外鍵的數據列一定要建立索引。
對於經常查詢的數據列最好建立索引。
對於需要在指定範圍內的快速或頻繁查詢的數據列;
經常用在WHERE子句中的數據列。
經常出現在關鍵字order by、group by、distinct後面的字段，建立索引。如果建立的是複合索引，索引的字段順序要和這些關鍵字後面的字段順序一致，否則索引不會被使用。

不要建索引

對於那些查詢中很少涉及的列，重複值比較多的列不要建立索引。
對於定義為text、image和bit的數據類型的列不要建立索引。
對於經常存取的列避免建立索引

索引的坑

限制表上的索引數目。對一個存在大量更新操作的表，所建索引的數目一般不要超過3個，最多不要超過5個。索引雖說提高了訪問速度，但太多索引會影響數據的更新操作。
對複合索引，按照字段在查詢條件中出現的頻度建立索引。在複合索引中，記錄首先按照第一個字段排序。對於在第一個字段上取值相同的記錄，系統再按照第二個字段的取值排序，以此類推。因此只有複合索引的第一個字段出現在查詢條件中，該索引才可能被使用,因此將應用頻度高的字段，放置在複合索引的前面，會使系統最大可能地使用此索引，發揮索引的作用。

索引不會包含有NULL值的列

只要列中包含有NULL值都將不會被包含在索引中，複合索引中只要有一列含有NULL值，那麼這一列對於此複合索引就是無效的。所以我們在數據庫設計時不要讓字段的默認值為NULL

使用短索引（列內容越短越好）

對列進行索引，如果可能應該指定一個前綴長度。例如，如果有一個CHAR(255)的列，如果在前10個或20個字符內，多數值是惟一的，那麼就不要對整個列進行索引。短索引不僅可以提高查詢速度而且可以節省磁盤空間和I/O操作。

索引列排序

MySQL查詢只使用一個索引，因此如果where子句中已經使用了索引的話，那麼order by中的列是不會使用索引的。因此數據庫默認排序可以符合要求的情況下不要使用排序操作；儘量不要包含多個列的排序，如果需要最好給這些列創建複合索引。

like語句操作

一般情況下不鼓勵使用like操作，如果非使用不可，如何使用也是一個問題。like “%aaa%” 不會使用索引，而like “aaa%”可以使用索引。即：左匹配規則。可以使用reverse函數來支持逆序匹配，從而增強like走索引的可能。

<code>ALTER TABLE `T` ADD `reverse_identifier` VARCHAR(255)  CHARACTER SET utf8  COLLATE utf8_general_ci;

select * from T where reverse_identifier like reverse('%SDTE');/<code>

不要在列上進行運算

select * from users where YEAR(adddate)<2007; 將在每個行上進行運算，這將導致索引失效而進行全表掃描，因此我們可以改成 select * from users where adddate

不使用NOT IN和<>操作

因為MySQL只對，>=，BETWEEN，IN，以及某些時候的LIKE才會使用索引。因為在以通配符 % 和 _ 開頭作查詢時，MySQL不會使用索引。

分享到:

閱讀更多 Java架構人生 的文章

關鍵字: 數據結構設計索引

掃盲！Java可變長數組，看這篇就對了！

Vue.js + element-ui 掃盲(服務端對大前端的掃盲)

「掃盲」服務器內部結構大剖析

100個問題之——“掃盲”網絡基礎知識，立馬電腦高手

「掃盲」Web服務器和應用服務器的區別

掃盲！做Web前端開發的你必須會這幾點！

掃盲，爲什麼分布式一定要有Redis?

掃盲：Hadoop分布式文件系統（HDFS）基礎概念講解！

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"