MySQL索引原理

索引的目的在於提高查詢效率，可以模擬字典，如果要查「mysql」這個單詞，我們肯定需要定位到m字母，然後從下往下找到y字母，再找到剩下的sql。如果沒有索引，那麼你可能需要把所有單詞看一遍才能找到你想要的，如果我想找到m開頭的單詞呢？或者ze開頭的單詞呢？是不是覺得如果沒有索引，這個事情根本無法完成？

除了詞典，生活中隨處可見索引的例子，如火車站的車次表、圖書的目錄等。它們的原理都是一樣的，通過不斷的縮小想要獲得資料的範圍來篩選出最終想要的結果，同時把隨機的事件變成順序的事件，也就是我們總是通過同一種查詢方式來鎖定資料。

資料庫也是一樣，但顯然要複雜許多，因為不僅面臨著等值查詢，還有範圍查詢(>、

前面提到了訪問磁碟，那麼這裡先簡單介紹一下磁碟io和預讀，磁碟讀取資料靠的是機械運動，每次讀取資料花費的時間可以分為尋道時間、旋轉延遲、傳輸時間三個部分，尋道時間指的是磁臂移動到指定磁軌所需要的時間，主流磁碟一般在5ms以下；旋轉延遲就是我們經常聽說的磁碟轉速，比如乙個磁碟7200轉，表示每分鐘能轉7200次，也就是說1秒鐘能轉120次，旋轉延遲就是1/120/2 = 4.17ms；傳輸時間指的是從磁碟讀出或將資料寫入磁碟的時間，一般在零點幾毫秒，相對於前兩個時間可以忽略不計。那麼訪問一次磁碟的時間，即一次磁碟io的時間約等於5+4.17 = 9ms左右，聽起來還挺不錯的，但要知道一台500 -mips的機器每秒可以執行5億條指令，因為指令依靠的是電的性質，換句話說執行一次io的時間可以執行40萬條指令，資料庫動輒十萬百萬乃至千萬級資料，每次9毫秒的時間，顯然是個災難。

考慮到磁碟io是非常高昂的操作，計算機作業系統做了一些優化，當一次io時，不光把當前磁碟位址的資料，而是把相鄰的資料也都讀取到記憶體緩衝區內，因為區域性預讀性原理告訴我們，當計算機訪問乙個位址的資料的時候，與其相鄰的資料也會很快被訪問到。每一次io讀取的資料我們稱之為一頁(page)。具體一頁有多大資料跟作業系統有關，一般為4k或8k，也就是我們讀取一頁內的資料時候，實際上才發生了一次io，這個理論對於索引的資料結構設計非常有幫助。

前面講了生活中索引的例子，索引的基本原理，資料庫的複雜性，又講了作業系統的相關知識，目的就是讓大家了解，任何一種資料結構都不是憑空產生的，一定會有它的背景和使用場景，我們現在總結一下，我們需要這種資料結構能夠做些什麼，其實很簡單，那就是：每次查詢資料時把磁碟io次數控制在乙個很小的數量級，最好是常數數量級。那麼我們就想到如果乙個高度可控的多路搜尋樹是否能滿足需求呢？就這樣，b+樹應運而生。

b+樹也是如此，他的文章比較通俗易懂傳送門

淺藍色的塊我們稱之為乙個磁碟塊，可以看到每個磁碟塊包含幾個資料項（深藍色所示）和指標（黃色所示），如磁碟塊1包含資料項17和35，包含指標p1、p2、p3，p1表示小於17的磁碟塊，p2表示在17和35之間的磁碟塊，p3表示大於35的磁碟塊。真實的資料存在於葉子節點即3、5、9、10、13、15、28、29、36、60、75、79、90、99。非葉子節點只不儲存真實的資料，只儲存指引搜尋方向的資料項，如17、35並不真實存在於資料表中。

如圖所示，如果要查詢資料項29，那麼首先會把磁碟塊1由磁碟載入到記憶體，此時發生一次io，在記憶體中用二分查詢確定29在17和35之間，鎖定磁碟塊1的p2指標，記憶體時間因為非常短（相比磁碟的io）可以忽略不計，通過磁碟塊1的p2指標的磁碟位址把磁碟塊3由磁碟載入到記憶體，發生第二次io，29在26和30之間，鎖定磁碟塊3的p2指標，通過指標載入磁碟塊8到記憶體，發生第三次io，同時記憶體中做二分查詢找到29，結束查詢，總計三次io。真實的情況是，3層的b+樹可以表示上百萬的資料，如果上百萬的資料查詢只需要三次io，效能提高將是巨大的，如果沒有索引，每個資料項都要發生一次io，那麼總共需要百萬次的io，顯然成本非常非常高。

MySQL索引原理

MySQL索引原理之索引原理

mysql索引 mysql索引實現原理

mysql 索引原理

MySQL索引原理

MySQL索引原理之索引原理

mysql索引 mysql索引實現原理

mysql 索引原理

相關推薦