海量資料處理專題（七）資料庫索引及優化

索引是對資料庫表中一列或多列的值進行排序的一種結構，使用索引可快速訪問資料庫表中的特定資訊。

什麼是索引

資料庫索引好比是一本書前面的目錄，能加快資料庫的查詢速度。

例如這樣乙個查詢：select * from table1 where id=44。如果沒有索引，必須遍歷整個表，直到id等於44的這一行被找到為止;有了索引之後(必須是在id這一列上建立的索引)，直接在索引裡面找 44(也就是在id這一列找)，就可以得知這一行的位置，也就是找到了這一行。可見，索引是用來定位的。

索引分為聚簇索引和非聚簇索引兩種，聚簇索引是按照資料存放的物理位置為順序的，而非聚簇索引就不一樣了;聚簇索引能提高多行檢索的速度，而非聚簇索引對於單行的檢索很快。

概述建立索引的目的是加快對錶中記錄的查詢或排序。

為表設定索引要付出代價的：一是增加了資料庫的儲存空間，二是在插入和修改資料時要花費較多的時間(因為索引也要隨之變動)。

b樹索引-sql server索引方式

為什麼要建立索引

建立索引可以大大提高系統的效能。

第一，通過建立唯一性索引，可以保證資料庫表中每一行資料的唯一性。

第二，可以大大加快資料的檢索速度，這也是建立索引的最主要的原因。

第三，可以加速表和表之間的連線，特別是在實現資料的參考完整性方面特別有意義。

第四，在使用分組和排序子句進行資料檢索時，同樣可以顯著減少查詢中分組和排序的時間。

第五，通過使用索引，可以在查詢的過程中，使用優化隱藏器，提高系統的效能。

也許會有人要問：增加索引有如此多的優點，為什麼不對錶中的每乙個列建立乙個索引呢?因為，增加索引也有許多不利的方面。

第一，建立索引和維護索引要耗費時間，這種時間隨著資料量的增加而增加。

第二，索引需要佔物理空間，除了資料表佔資料空間之外，每乙個索引還要佔一定的物理空間，如果要建立聚簇索引，那麼需要的空間就會更大。

第三，當對表中的資料進行增加、刪除和修改的時候，索引也要動態的維護，這樣就降低了資料的維護速度。

在哪建索引

索引是建立在資料庫表中的某些列的上面。在建立索引的時候，應該考慮在哪些列上可以建立索引，在哪些列上不能建立索引。一般來說，應該在這些列上建立索引：

在經常需要搜尋的列上，可以加快搜尋的速度;

在作為主鍵的列上，強制該列的唯一性和組織表中資料的排列結構;

在經常用在連線的列上，這些列主要是一些外來鍵，可以加快連線的速度;在經常需要根據範圍進行搜尋的列上建立索引，因為索引已經排序，其指定的範圍是連續的;

在經常需要排序的列上建立索引，因為索引已經排序，這樣查詢可以利用索引的排序，加快排序查詢時間;

在經常使用在where子句中的列上面建立索引，加快條件的判斷速度。

同樣，對於有些列不應該建立索引。一般來說，不應該建立索引的的這些列具有下列特點：

第一，對於那些在查詢中很少使用或者參考的列不應該建立索引。這是因為，既然這些列很少使用到，因此有索引或者無索引，並不能提高查詢速度。相反，由於增加了索引，反而降低了系統的維護速度和增大了空間需求。

第二，對於那些只有很少資料值的列也不應該增加索引。這是因為，由於這些列的取值很少，例如人事表的性別列，在查詢的結果中，結果集的資料行佔了表中資料行的很大比例，即需要在表中搜尋的資料行的比例很大。增加索引，並不能明顯加快檢索速度。

第三，對於那些定義為text, image和bit資料型別的列不應該增加索引。這是因為，這些列的資料量要麼相當大，要麼取值很少,不利於使用索引。

第四，當修改效能遠遠大於檢索效能時，不應該建立索引。這是因為，修改效能和檢索效能是互相矛盾的。當增加索引時，會提高檢索效能，但是會降低修改效能。當減少索引時，會提高修改效能，降低檢索效能。因此，當修改操作遠遠多於檢索操作時，不應該建立索引。

此外，除了資料庫索引之外，在lamp結果如此流行的今天，資料庫(尤其是mysql)效能優化也是海量資料處理的乙個熱點。下面就結合自己的經驗，聊一聊mysql資料庫優化的幾個方面。

首先，在資料庫設計的時候，要能夠充分的利用索引帶來的效能提公升，至於如何建立索引，建立什麼樣的索引，在哪些欄位上建立索引，上面已經講的很清楚了，這裡不在贅述。另外就是設計資料庫的原則就是盡可能少的進行資料庫寫操作(插入，更新，刪除等)，查詢越簡單越好。如下：

資料庫設計

其次，配置快取是必不可少的，配置快取可以有效的降低資料庫查詢讀取次數，從而緩解資料庫伺服器壓力，達到優化的目的，一定程度上來講，這算是乙個「圍魏救趙」的辦法。可配置的快取包括索引快取(key_buffer)，排序快取(sort_buffer)，查詢快取(query_buffer)，表描述符快取(table_cache)，如下圖：

配置快取

第三，切表，切表也是一種比較流行的資料庫優化方法。分表包括兩種方式：橫向分表和縱向分表，其中，縱向分表比較有使用意義，但是分表會造成查詢的負擔，因此在資料庫設計之初，要想好：

分表第四，日誌分析，在資料庫執行了較長一段時間以後，會積累大量的log日誌，其實這裡面的蘊涵的有用的資訊量還是很大的。通過分析日誌，可以找到系統效能的瓶頸，從而進一步尋找優化方案。

效能分析

以上講的都是單機mysql的效能優化的一些經驗，但是隨著資訊大**，單機的資料庫伺服器已經不能滿足我們的需求，於是，多多節點，分布式資料庫網路出現了，其一般的結構如下：

分布式資料庫結構

這種分布式集群的技術關鍵就是「同步複製」。。。未完待續~~~

海量資料處理專題（七）資料庫索引及優化

索引是對資料庫表中一列或多列的值進行排序的一種結構，使用索引可快速訪問資料庫表中的特定資訊。資料庫索引好比是一本書前面的目錄，能加快資料庫的查詢速度。例如這樣乙個查詢 select from table1 where id 44。如果沒有索引，必須遍歷整個表，直到id等於44的這一行被找到為止有了...

海量資料處理之資料庫索引

一，什麼是索引資料庫索引好比是一本書前面的目錄，能加快資料庫的查詢速度。例如這樣乙個查詢 select from table1 where id 44。如果沒有索引，必須遍歷整個表，直到id等於44的這一行被找到為止有了索引之後必須是在id這一列上建立的索引直接在索引裡面找44 也就是在id...

海量資料處理倒排索引

在資訊大的今天，有了搜尋引擎的幫助，使得我們能夠快速，便捷的找到所求。提到搜尋引擎，就不得不說vsm模型，說到vsm，就不得不聊倒排索引。可以毫不誇張的講，倒排索引是搜尋引擎的基石。vsm全稱是vector space model 向量空間模型是ir information retrieval資...

海量資料處理專題（七） 資料庫索引及優化

海量資料處理專題（七） 資料庫索引及優化

海量資料處理之資料庫索引

海量資料處理 倒排索引

相關推薦

海量資料處理專題（七）資料庫索引及優化

海量資料處理專題（七）資料庫索引及優化

海量資料處理倒排索引