MySQL索引底層實現（張高偉）

索引的本質

mysql官方對於索引的定義為：索引是幫助mysql高效獲取資料的資料結構。即可以理解為：索引是資料結構。

我們知道，資料庫查詢是資料庫最主要的功能之一，我們都希望查詢資料的速度盡可能的快，因此資料庫系統的設計者會從查詢演算法的角度進行優化。最基本的查詢演算法當然是順序查詢，當然這種時間複雜度為o(n)的演算法在資料量很大時顯然是糟糕的，於是有了二分查詢、二叉樹查詢等。但是二分查詢要求被檢索資料有序，而二叉樹查詢只能應用於二叉查詢樹，但是資料本身的組織結構不可能完全滿足各種資料結構。所以，在資料之外，資料庫系統還維護者滿足特定查詢演算法的資料結構，這些資料結構以某種方式引用資料，這樣就可以在這些資料結構上實現高階查詢演算法。這種資料結構，就是索引。

b-tree和b+tree

目前大部分資料庫系統及檔案系統都採用b-tree和b+tree作為索引結構。

索引索引的目的：提高查詢效率

原理：通過不斷的縮小想要獲得資料的範圍來篩選出最終想要的結果，同時把隨機的事件變成順序的事件，也就是我們總是通過同一種查詢方式來鎖定資料。

資料結構：b+樹

**b+樹與查詢過程：

如上圖，是一顆b+樹，關於b+樹的定義可以參見b+樹，這裡只說一些重點，淺藍色的塊我們稱之為乙個磁碟塊，可以看到每個磁碟塊包含幾個資料項（深藍色所示）和指標（黃色所示），如磁碟塊1包含資料項17和35，包含指標p1、p2、p3，p1表示小於17的磁碟塊，p2表示在17和35之間的磁碟塊，p3表示大於35的磁碟塊。真實的資料存在於葉子節點即3、5、9、10、13、15、28、29、36、60、75、79、90、99。非葉子節點只不儲存真實的資料，只儲存指引搜尋方向的資料項，如17、35並不真實存在於資料表中。

b+樹的查詢過程

如圖所示，如果要查詢資料項29，那麼首先會把磁碟塊1由磁碟載入到記憶體，此時發生一次io，在記憶體中用二分查詢確定29在17和35之間，鎖定磁碟塊1的p2指標，記憶體時間因為非常短（相比磁碟的io）可以忽略不計，通過磁碟塊1的p2指標的磁碟位址把磁碟塊3由磁碟載入到記憶體，發生第二次io，29在26和30之間，鎖定磁碟塊3的p2指標，通過指標載入磁碟塊8到記憶體，發生第三次io，同時記憶體中做二分查詢找到29，結束查詢，總計三次io。真實的情況是，3層的b+樹可以表示上百萬的資料，如果上百萬的資料查詢只需要三次io，效能提高將是巨大的，如果沒有索引，每個資料項都要發生一次io，那麼總共需要百萬次的io，顯然成本非常非常高。

b+樹性質

通過上面的分析，我們知道io次數取決於b+數的高度h，假設當前資料表的資料為n，每個磁碟塊的資料項的數量是m，則有h=㏒(m+1)n，當資料量n一定的情況下，m越大，h越小；而m = 磁碟塊的大小 / 資料項的大小，磁碟塊的大小也就是乙個資料頁的大小，是固定的，如果資料項佔的空間越小，資料項的數量越多，樹的高度越低。這就是為什麼每個資料項，即索引欄位要盡量的小，比如int佔4位元組，要比bigint8位元組少一半。這也是為什麼b+樹要求把真實的資料放到葉子節點而不是內層節點，一旦放到內層節點，磁碟塊的資料項會大幅度下降，導致樹增高。當資料項等於1時將會退化成線性表。

MySQL索引底層實現（張高偉）

mysql索引實現 mysql索引底層實現原理

MySQL索引底層實現

MySQL索引底層實現

相關推薦