資料庫索引

資料庫為什麼要設計索引？

圖書館存了1000w本圖書，要從中找到《架構師之路》，一本本查，要查到什麼時候去？

於是，圖書管理員設計了一套規則：

(1)一樓放歷史類，二樓放文學類，三樓放it類…

(2)it類，又分軟體類，硬體類…

(3)軟體類，又按照書名音序排序…

以便快速找到一本書。

與之模擬，資料庫儲存了1000w條資料，要從中找到name=」shenjian」的記錄，一條條查，要查到什麼時候去？

於是，要有索引，用於提公升資料庫的查詢速度。

雜湊(hash)比樹(tree)更快，索引結構為什麼要設計成樹型？

加速查詢速度的資料結構，常見的有兩類：

(1)雜湊，例如hashmap，查詢/插入/修改/刪除的平均時間複雜度都是o(1)；

(2)樹，例如平衡二叉搜尋樹，查詢/插入/修改/刪除的平均時間複雜度都是o(lg(n))；

可以看到，不管是讀請求，還是寫請求，雜湊型別的索引，都要比樹型的索引更快一些，那為什麼，索引結構要設計成樹型呢？

索引設計成樹形，和sql的需求相關。

對於這樣乙個單行查詢的sql需求：

select * from t where name=」shenjian」;

確實是雜湊索引更快，因為每次都只查詢一條記錄。

但是對於排序查詢的sql需求：

分組：group by

排序：order by

比較：…雜湊型的索引，時間複雜度會退化為o(n)，而樹型的「有序」特性，依然能夠保持o(log(n)) 的高效率。

資料庫索引為什麼使用b+樹:

為了保持知識體系的完整性，簡單介紹下幾種樹。

第一種：二叉搜尋樹

二叉搜尋樹，如上圖，是最為大家所熟知的一種資料結構，就不展開介紹了，它為什麼不適合用作資料庫索引？

(1)當資料量大的時候，樹的高度會比較高，資料量大的時候，查詢會比較慢；

(2)每個節點只儲存乙個記錄，可能導致一次查詢有很多次磁碟io；

第二種：b樹

b樹，如上圖，它的特點是：

(1)不再是二叉搜尋，而是m叉搜尋；

(2)葉子節點，非葉子節點，都儲存資料；

(3)中序遍歷，可以獲得所有節點；

b樹被作為實現索引的資料結構被創造出來，是因為它能夠完美的利用「區域性性原理」。

什麼是區域性性原理？

區域性性原理的邏輯是這樣的：

(1)記憶體讀寫塊，磁碟讀寫慢，而且慢很多；

(2)磁碟預讀：磁碟讀寫並不是按需讀取，而是按頁預讀，一次會讀一頁的資料，每次載入更多的資料，如果未來要讀取的資料就在這一頁中，可以避免未來的磁碟io，提高效率；

畫外音：通常，一頁資料是4k。

(3)區域性性原理：軟體設計要盡量遵循「資料讀取集中」與「使用到乙個資料，大概率會使用其附近的資料」，這樣磁碟預讀能充分提高磁碟io；

b樹為何適合做索引？

(1)由於是m分叉的，高度能夠大大降低；

(2)每個節點可以儲存j個記錄，如果將節點大小設定為頁大小，例如4k，能夠充分的利用預讀的特性，極大減少磁碟io；

第三種：b+樹

b+樹，如上圖，仍是m叉搜尋樹，在b樹的基礎上，做了一些改進：

(1)非葉子節點不再儲存資料，資料只儲存在同一層的葉子節點上；

畫外音：b+樹中根到每乙個節點的路徑長度一樣，而b樹不是這樣。

(2)葉子之間，增加了鍊錶，獲取所有節點，不再需要中序遍歷；

這些改進讓b+樹比b樹有更優的特性：

(1)範圍查詢，定位min與max之後，中間葉子節點，就是結果集，不用中序回溯；

。(2)葉子節點儲存實際記錄行，記錄行相對比較緊密的儲存，適合大資料量磁碟儲存；非葉子節點儲存記錄的pk，用於查詢加速，適合記憶體儲存；

(3)非葉子節點，不儲存實際記錄，而只儲存記錄的key的話，那麼在相同記憶體的情況下，b+樹能夠儲存更多索引；

為什麼m叉的b+樹比二叉搜尋樹的高度大大大大降低？

大概計算一下：

(1)區域性性原理，將乙個節點的大小設為一頁，一頁4k，假設乙個key有8位元組，乙個節點可以儲存500個key，即j=500

(2)m叉樹，大概m/2<= j <=m，即可以差不多是1000叉樹

(3)那麼：

一層樹：1個節點，1500個key，大小4k

二層樹：1000個節點，1000500=50w個key，大小10004k=4m

三層樹：10001000個節點，10001000500=5億個key，大小100010004k=4g

可以看到，儲存大量的資料（5億），並不需要太高樹的深度（高度3），索引也不是太佔記憶體（4g）。

總結資料庫索引用於加速查詢

雖然雜湊索引是o(1)，樹索引是o(log(n))，但sql有很多「有序」需求，故資料庫使用樹型索引

innodb不支援雜湊索引

資料預讀的思路是：磁碟讀寫並不是按需讀取，而是按頁預讀，一次會讀一頁的資料，每次載入更多的資料，以便未來減少磁碟io

區域性性原理：軟體設計要盡量遵循「資料讀取集中」與「使用到乙個資料，大概率會使用其附近的資料」，這樣磁碟預讀能充分提高磁碟io

資料庫的索引最常用b+樹：

(1)很適合磁碟儲存，能夠充分利用區域性性原理，磁碟預讀；

(2)很低的樹高度，能夠儲存大量資料；

(3)索引本身占用的記憶體很小；

(4)能夠很好的支援單點查詢，範圍查詢，有序性查詢；

資料庫資料庫索引

索引是儲存引擎用於快速找到記錄的一種資料結構。索引以檔案的形式儲存在磁碟中。索引可以包含乙個或多個列的值。儲存引擎查詢資料的時候，先在索引中找對應值，然後根據匹配的索引記錄找到對應的資料行。1.b tree索引 2.雜湊索引 myisam和innodb儲存引擎只支援btree索引，也就是說預設使用...

資料庫mysql索引資料庫 mysql索引

mysql 索引 mysql索引的建立對於mysql的高效執行是很重要的，索引可以大大提高mysql的檢索速度。打個比方，如果合理的設計且使用索引的mysql是一輛蘭博基尼的話，那麼沒有設計和使用索引的mysql就是乙個人力三輪車。索引分單列索引和組合索引。單列索引，即乙個索引只包含單個列，乙個表可...

資料庫索引

索引索引列唯一索引主鍵索引聚簇索引和非聚簇索引如何建立索引如何刪除索引使用索引可快速訪問資料庫表中的特定資訊。索引是對資料庫表中一列或多列的值進行排序的一種結構，例如 employee 表的姓 lname 列。如果要按姓查詢特定職員，與必須搜尋表中的所有行相比，索引會幫助您更快地獲得該資...

資料庫索引

資料庫 資料庫索引

資料庫mysql索引 資料庫 mysql索引

資料庫索引

相關推薦

資料庫資料庫索引

資料庫mysql索引資料庫 mysql索引