MySQL如何構建資料表索引

理解索引概念最簡單的方式是通過乙個案例來進行，以下就是這樣的乙個案例。

假設我們需要設計乙個**的約會**，這個**的使用者資料有許多列，例如國籍、省份、城市、性別、年齡、眼睛顏色等等。這個**必須支援通過多種組合方式搜尋使用者資料。同時，也需要支援支援排序和根據使用者最近**時間和其他使用者的評價返回有限的結果等等。對於這種複雜場景我們如何設計索引？

有點奇怪，首先要做的事情是要決定我們是否必須使用索引排序，或者檢索後再排序是否能夠接受。索引排序限制了索引和查詢構建的方式。例如，在where age between 18 and 25這樣的查詢條件和基於其他使用者評價排序的場景中，我們不能使用同乙個索引。如果mysql在範圍查詢中使用了乙個索引，那就沒法在排序中使用另乙個索引。假設這是乙個最常用的where條件，同時我們還需要支援大多數查詢都可以排序。

現在我們需要看看哪些列的值比較分散以及哪些列在where條件中最常出現。資料列值比較分散的篩選性很好。這通常會是乙個好事情，因為這讓mysql可以將高效過濾掉不相www.cppcns.com關的資料行。

國籍列可能篩選性不太好，但卻可能是最常查詢的。性別列通常不具備篩選性，但卻也經常用於查詢。基於這樣的認識，我們為許多不同的列的組合建立了一系列的索引，這些索引使用(***, country)開頭。

傳統的認知是對於低篩選性的列構建索引是沒用的。那我們為什麼要在每個索引開頭都加上不具篩選性的列？我們有兩個理由這麼做。第乙個理由是，如前所述，基本每個查詢都會使用性別。我們甚至設計了使用者一次只能搜尋乙個性別。但更重要的是，增加這樣的列並沒有多少缺點，因為我們使用了乙個小招數。

這是我們的招數：即便不限制性別查詢，我們也能夠保證在where語句中加上and *** in('m', 'f')讓索引生效。這不會過濾掉我們所需要的行，因此與where語句中不包含性別作用相同。然而，因為mysql會在更多列的索引中前置這個列，我們需要包含這個列。這個招術在這樣的場景下有效，但是如果是這個列具有很多不同的值，那反而不起作用，這是因為這會導致in()中的列過多。

這個例子闡述了乙個基本的原則：在資料表設計上保留所有的選項。當你設計索引的時候，不要只想著那種查詢中的那類索引，也同時考慮優化查詢。當你需要乙個索引卻發現其他查詢可能會受其影響，你應該先問問自己能否改變查詢。你應該同時優化查詢和索引去找到解決之道。你不一定需要設計完美的索引。

接下來，我們需要考慮可能用到的其他組合的where條件，然後考慮其中的哪些組合在沒有合理索引的情況下會變慢。(***, country, age)這樣的索引是很明顯的選擇，但我們也可能需要(***, country, region, age)和(***, country, region, city, age)這樣的索引。

這會導致需要建立很多的索引。如果我們能夠重複利用索引，那就不會產生過多的組合。我們可以使用in()這種小招數來去掉(***, country, age)和(***, country, region, age程式設計客棧)索引。如果這些列在搜尋表單中沒有指定，我們可以使用國家清單、地區清單來保證滿足索引前置的約束（全部國家，全部地區和全部性別的組合可能很多）。

這些索引會滿足指定的大部分搜尋查詢，但我們如何設計那些不那麼常見的篩選，例如上傳了(has_pictures)，眼睛顏色（eye_color），頭髮顏色（hair_color）和教育水平（vpsarjeducation）？如果這些列不是那麼具有篩選性並且不那麼常用，我們可以直接跳過他們，讓mysql去掃瞄額外的一些資料行。相應地，我們可以在age列前增加他們，並且使用in()技巧去提前描述以處理那種這些列沒有指定的情況。

你也許注意到我們將age放到了索引的最後面。為什麼要特別處理這個列？我們在試圖保證mysql能夠盡可能多地利用索引列。由於mysql使用最左匹配規則，直到遇到第乙個範圍查詢條件。所有我們提到的列都可以在where語句中使用相等條件，但年齡(age)大概率是範圍查詢。

我們也能夠將範圍查詢改為清單使用in查詢，例如age in(18, 19, 20, 21, 22, 23, 24, 25)來替代age between 18 and 25，但這並不總是能夠這麼做。通用的原則是我們盡量將範圍判決條件放到索引的末尾，因此優化器會盡可能地使用索引。

我們提到你可以使用盡可能多的列使用in查詢去覆蓋那些在where條件中未指定的索引條件。但你可能做得過頭了導致新的問題。使用更多的這樣的in查詢清單導致優化器需要評估大量的組合，這反而可能降低查詢速度。考慮下面的查詢條件語句：

where eye_color in('brown', 'blue', 'hazel')

and hair_color in('black', 'red', 'blonde', 'brown')

and *** in('m', 'f')

這個優化器會轉變為432=24種組合，where條件會檢查每一種情況。24還不是乙個很大的組合數字，但如果數量達到了幾千。舊版本的mysql在in查詢中數量過多時可能會有更多的問題。查詢優化器會執行更慢並且消耗很多記憶體。新版本的mysql會在組合過多時停止評估，但這會影響mysql使用索引。

讓我們假設有乙個last_online(最近**時間）的列，然後我們需要展示最近一周**的使用者：

where eye_color in('brown', 'blue', 'hazel')

and hair_color in('black', 'red', 'blonde', 'browww.cppcns.comwn')

and *** in('m', 'f')

and last_online > date_sub(now(), interval 7 day)

and age between 18 and 25

這個查詢的問題在於它有兩個範圍查詢。mysql可以使用last_online或age條件，但不能同時使用。如果last_online約束出現時沒有age約束，或last_online比age更有篩選性，我們可能希望增加另一組索引，將last_online放到最後面。但是如果我們不能將age轉換為in查詢，而我們也希望能夠在同時有last_oinline和age範圍查詢時提高查詢速度怎麼辦？這個時候，我們沒有直接的方法。但我們可以將乙個範圍轉換為相等比較。去這麼做的時候，我們增加乙個預先計算的active列，這個列我們會定期維護。如果使用者登入後，我們標記為1，如果7天內沒有連續登入則重新標記為0。

這個方法可以讓mysql使用如(active, ***, country, age)這樣的索引。這個列也許沒那麼精準，但這類查詢也許不需要很高的精準度。如果我們需要精準查詢，我們可以保留last_online在where條件中，但不增加索引。這種技巧與url查詢的情況類似。這種條件不會使用任何索引，因為它不太可能會將索引命中的行給過濾掉。增加索引未必能夠讓查詢收益。

現在，你可以看到這個模式：如果使用者想同時查詢活躍和不活躍的結果，我們可以使用in查詢。我們增加了很多這樣的清單查詢，乙個變通的方式是通過將各個組合分開的查詢單獨建立索引，例如，我們可以使用如下的索引：(active, ***, country, age)，(active, country, age)，(***, country, age)和(country, age)。雖然這樣的索引對於特定的查詢可能是更優的選擇，但維護這些組合的負面效果，組合所需的額外儲存空間都可能導致是乙個很弱的策略。

這是乙個優化器改變後可以真正影響索引優化的案例。如果在未來的mysql版本中可以真正丟棄索引掃瞄，它可能能夠在乙個索引上使用多個範圍條件，此時我們不再需要通過in查詢這種方式解決此類問題。

最後乙個議題是排序。小資料量的結果使用檔案排序(filesort)很快，但如果是上百萬行資料呢？例如，如果只在where條件中指定了性別時的排序。

對於這類低篩選性的場景，我們可以增加特定的索引用於排序。例如，乙個(***, rating)的索引可以用於下面的查詢：

select from profiles where ***='m' order by rating limit 10;

這個查詢同時有排序和limit子句，在沒有索引的情況vpsarj下可能很慢。即便是有索引，這個查詢在使用者介面有分頁查詢，而頁碼不在起始位置附近時也可能很慢。下面的例子的order by和limit造成了乙個糟糕的組合：

select from profiles where ***='m' order by rating limit 100000, 10;

即便有索引，這樣的查詢也可能導致十分嚴重的問題。這是因為很高的偏移會導致花費大量的時間掃瞄大量的資料，且這些資料會被丟棄。反正規化設計，提前計算和快取可能能夠解決這類查詢的問題。乙個更好的策略是限制使用者可查詢的頁碼。這不太可能會降低使用者的體驗，因為實際上不會有人會關心第10000頁的搜尋結果。

另乙個好的策略是使用推斷聯合查詢，這是我們利用覆蓋索引去獲取主鍵列後再獲取資料行的方式。你可以將需要獲取的列全部聯合，這會減少mysql收集那些需要丟棄的資料的工作。下面是乙個例子：

select from profiles inner join (

select from profiles

where x.***='m' order by rating limit 100000, 10

as x using();

MySQL如何構建資料表索引

mysql 如何表資料 mysql資料表如何建立

MySQL 大資料表新增索引

如何修護MYSQL資料表

MySQL如何構建資料表索引

mysql 如何表資料 mysql資料表如何建立

MySQL 大資料表新增索引

如何修護MYSQL資料表

相關推薦