資料庫的索引原理和注意事項

2021-07-26 19:10:48 字數 2684 閱讀 9913

索引的種類:

1、普通索引;

2、唯一索引;

3、主鍵索引;

4、對左匹配聯合索引;

5、全文索引。

也可以分為

聚簇索引與非聚簇索引

聚簇索引: 葉節點--》資料節點 (直接找到資料,跟線性鍊錶類似)適合查詢,排序

非聚簇索引:葉節點--》索引節點--》資料塊(間接找到資料,跟非線性鍊錶類似)適合

1、某列常用於集合函式(如sum,....)。

2、某列常用於join,order by,group by。

3、查尋出的資料不超過表中資料量的20%。

非聚簇索引是相當耗資源的。使用要慎重

雖然說非聚簇索引的插入速度要大於聚簇索引的速度,但是這只是相對的,其實索引都是很消耗資源的。即想查詢快,又想更新速度快,

這個不太可能,只能從中尋找乙個平衡點。

注意:聚簇索引一張表只能建立乙個, 非聚簇索引可以建立多個,上線應該是249個。

索引的原始結構:

b+樹的查詢過程

如圖所示,如果要查詢資料項29,那麼首先會把磁碟塊1由磁碟載入到記憶體,此時發生一次io,在記憶體中用二分查詢確定29在17和35之間,鎖定磁碟塊1的p2指標,記憶體時間因為非常短(相比磁碟的io)可以忽略不計,通過磁碟塊1的p2指標的磁碟位址把磁碟塊3由磁碟載入到記憶體,發生第二次io,29在26和30之間,鎖定磁碟塊3的p2指標,通過指標載入磁碟塊8到記憶體,發生第三次io,同時記憶體中做二分查詢找到29,結束查詢,總計三次io。真實的情況是,3層的b+樹可以表示上百萬的資料,如果上百萬的資料查詢只需要三次io,效能提高將是巨大的,如果沒有索引,每個資料項都要發生一次io,那麼總共需要百萬次的io,顯然成本非常非常高。

b+樹性質

1.通過上面的分析,我們知道io次數取決於b+數的高度h,假設當前資料表的資料為n,每個磁碟塊的資料項的數量是m,則有h=㏒(m+1)n,當資料量n一定的情況下,m越大,h越小;而m = 磁碟塊的大小 / 資料項的大小,磁碟塊的大小也就是乙個資料頁的大小,是固定的,如果資料項佔的空間越小,資料項的數量越多,樹的高度越低。這就是為什麼每個資料項,即索引欄位要盡量的小,比如int佔4位元組,要比bigint8位元組少一半。這也是為什麼b+樹要求把真實的資料放到葉子節點而不是內層節點,一旦放到內層節點,磁碟塊的資料項會大幅度下降,導致樹增高。當資料項等於1時將會退化成線性表。

2.當b+樹的資料項是復合的資料結構,比如(name,age,***)的時候,b+數是按照從左到右的順序來建立搜尋樹的,比如當(張三,20,f)這樣的資料來檢索的時候,b+樹會優先比較name來確定下一步的所搜方向,如果name相同再依次比較age和***,最後得到檢索的資料;但當(20,f)這樣的沒有name的資料來的時候,b+樹就不知道下一步該查哪個節點,因為建立搜尋樹的時候name就是第乙個比較因子,必須要先根據name來搜尋才能知道下一步去**查詢。比如當(張三,f)這樣的資料來檢索時,b+樹可以用name來指定搜尋方向,但下乙個欄位age的缺失,所以只能把名字等於張三的資料都找到,然後再匹配性別是f的資料了, 這個是非常重要的性質,即索引的最左匹配特性。

建索引的幾大原則

1、最左字首匹配原則,非常重要的原則,mysql會一直向右匹配直到遇到範圍查詢(>、 3 and d = 4 如果建立(a,b,c,d)順序的索引,d是用不到索引的,如果建立(a,b,d,c)的索引則都可以用到,a,b,d的順序可以任意調整。

2、=和in可以亂序,比如a = 1 and b = 2 and c = 3 建立(a,b,c)索引可以任意順序,mysql的查詢優化器會幫你優化成索引可以識別的形式

3、盡量選擇區分度高的列作為索引,區分度的公式是count(distinct col)/count(*),表示欄位不重複的比例,比例越大我們掃瞄的記錄數越少,唯一鍵的區分度是1,而一些狀態、性別字段可能在大資料面前區分度就是0,那可能有人會問,這個比例有什麼經驗值嗎?使用場景不同,這個值也很難確定,一般需要join的字段我們都要求是0.1以上,即平均1條掃瞄10條記錄

4、盡量的擴充套件索引,不要新建索引。比如表中已經有a的索引,現在要加(a,b)的索引,那麼只需要修改原來的索引即可

5、索引不會包含有null值的列

只要列中包含有null值都將不會被包含在索引中,復合索引中只要有一列含有null值,那麼這一列對於此復合索引就是無效的。所以我們在資料庫設計時不要讓字段的預設值為null。

6、盡量使用短索引(int)

對串列進行索引,如果可能應該指定乙個字首長度。例如,如果有乙個char(255)的列,如果在前10個或20個字元內,多數值是惟一的,那麼就不要對整個列進行索引。短索引不僅可以提高查詢速度而且可以節省磁碟空間和i/o操作。

7、索引列排序

mysql查詢只使用乙個索引,因此如果where子句中已經使用了索引的話,那麼order by中的列是不會使用索引的。因此資料庫預設排序可以符合要求的情況下不要使用排序操作;盡量不要包含多個列的排序,如果需要最好給這些列建立復合索引。

8、like語句操作

一般情況下不鼓勵使用like操作,如果非使用不可,如何使用也是乙個問題。like 「%aaa%」 不會使用索引而like 「aaa%」可以使用索引。

9、不要在列上進行運算 >

10、不使用not in和<>操作

索引的不足:

1、降低更新操作的效率;

2、占用更多的磁碟空間。

資料庫建立索引的條件和注意事項

資料庫中建立索引是為了提公升查詢效能,但是建立索引也會降低修改效能。建立索引也有不利的一面 建立索引和維護索引要耗費時間,耗費的時間隨著資料量的增加而增加 索引佔據物理空間。除了資料表佔據物理空間以外,每乙個索引都會佔據一定的物理空間。如果建立聚簇索引,那麼需要的空間就會更大 如果非聚簇索引很多,一...

資料庫 優化 索引 索引的優化注意事項

設計好mysql的索引可以讓你的資料庫飛起來,大大的提高資料庫效率。設計mysql索引的時候有一下幾點注意 對於查詢佔主要的應用來說,索引顯得尤為重要。很多時候效能問題很簡單的就是因為我們忘了新增索引而造成的,或者說沒有新增更為有效的索引導致。如果不加索引的話,那麼查詢任何哪怕只是一條特定的資料都會...

索引的注意事項和原理分析

索引的原理 注意事項 1 哪些列適合建立索引 較頻繁的作為查詢條件字段應該建立索引 select from emp where empno 1 唯一性太差的字段不適合單獨建立索引,即使頻繁作為查詢條件 select from emp where 男 性別就男,女,二叉樹都是平級,就兩個資料,沒有意義...