levelDB原始碼分析 SSTable

sstable是bigtable中至關重要的一塊，對於leveldb來說也是如此，對leveldb的sstable實現細節的了解也有助於了解bigtable中一些實現細節。

本節內容主要講述sstable的靜態布局結構，sstable檔案形成了不同level的層級結構，至於這個層級結構是如何形成的我們放在後面compaction一節細說。本節主要介紹sstable某個檔案的物理布局和邏輯布局結構，這對了解leveldb的執行過程很有幫助。

leveldb不同層級都有乙個或多個sstable檔案（以後綴.sst為特徵），所有.sst檔案內部布局都是一樣的。上節介紹log檔案是物理分塊的，sstable也一樣會將檔案劃分為固定大小的物理儲存塊block，但是兩者邏輯布局大不相同，根本原因是：log檔案中的記錄是key無序的，即先後記錄的key大小沒有明確大小關係，而.sst檔案內部則是根據記錄的key由小到大排列的，從下面介紹的sstable布局可以體會到key有序是為何如此設計.sst檔案結構的關鍵。

圖1 .sst檔案的分塊結構

圖2 邏輯布局

從圖2可以看出，從大的方面，可以將.sst檔案劃分為資料儲存區和資料管理區，資料儲存區存放實際的key:value資料，資料管理區則提供一些索引指標等管理資料，目的是更快速便捷的查詢相應的記錄。兩個區域都是在上述的分塊基礎上的，就是說檔案的前面若干塊實際儲存kv資料，後面資料管理區儲存管理資料。管理資料又分為四種不同型別：紫色的meta block，紅色的metablock index和藍色的index block以及乙個檔案尾部塊footer。

leveldb 1.2版對於meta block尚無實際使用，只是保留了乙個介面，估計會在後續版本中加入內容，下面我們看看index block和檔案尾部footer的內部結構。

圖3 index block結構

圖3是index block的內部結構示意圖。再次強調一下，data block內的kv記錄是按照key由小到大排列的，index block的每條記錄是對某個data block建立的索引資訊，每條索引資訊包含三個內容：data block中key上限值(不一定是最大key)、data block在.sst檔案的偏移和大小，以圖3所示的資料塊i的索引index i來說：紅色部分的第乙個字段記載大於等於資料塊i中最大的key值的那個key，第二個字段指出資料塊i在.sst檔案中的起始位置，第三個字段指出data block i的大小（有時候是有資料壓縮的）。後面兩個欄位好理解，是用於定位資料塊在檔案中的位置的，第乙個字段需要詳細解釋一下，在索引裡儲存的這個key值未必一定是某條記錄的key,以圖3的例子來說，假設資料塊i 的最小key=「samecity」，最大key=「the best」;資料塊i+1的最小key=「the fox」,最大key=「zoo」,那麼對於資料塊i的索引index i來說，其第乙個字段記載大於等於資料塊i的最大key(「the best」)，同時要小於資料塊i+1的最小key(「the fox」)，所以例子中index i的第乙個欄位是：「the c」，這個是滿足要求的；而index i+1的第乙個欄位則是「zoo」，即資料塊i+1的最大key。

檔案末尾footer塊的內部結構見圖4，metaindex_handle指出了metaindex block的起始位置和大小；inex_handle指出了index block的起始位址和大小；這兩個字段可以理解為索引的索引，是為了正確讀出索引值而設立的，後面跟著乙個填充區和魔數（0xdb4775248b80fb57）。

圖4 footer

上面主要介紹的是資料管理區的內部結構，下面我們看看資料區的乙個block的資料部分內部是如何布局的，圖5是其內部布局示意圖。

圖5 data block內部結構

從圖中可以看出，其內部也分為兩個部分，前面是乙個個kv記錄，其順序是根據key值由小到大排列的，在block尾部則是一些「重啟點」（restart point）,其實是一些指標，指出block內容中的一些記錄位置。

「重啟點」是幹什麼的呢？簡單來說就是進行資料壓縮，減少儲存空間。我們一再強調，block內容裡的kv記錄是按照key大小有序的，這樣的話，相鄰的兩條記錄很可能key部分存在重疊，比如key i=「the car」，key i+1=「the color」,那麼兩者存在重疊部分「the c」，為了減少key的儲存量，key i+1可以只儲存和上一條key不同的部分「olor」，兩者的共同部分從key i中可以獲得。記錄的key在block內容部分就是這麼儲存的，主要目的是減少儲存開銷。「重啟點」的意思是：在這條記錄開始，不再採取只記載不同的key部分，而是重新記錄所有的key值，假設key i+1是乙個重啟點，那麼key裡面會完整儲存「the color」，而不是採用簡略的「olor」方式。但是如果記錄條數比較多，隨機訪問一條記錄，需要從頭開始一直解析才行，這樣也產生很大的開銷，所以設定了多個重啟點，block尾部就是指出哪些記錄是這些重啟點的。

圖6 記錄格式

在block內容區，每個kv記錄的內部結構是怎樣的？圖6給出了其詳細結構，每個記錄包含5個字段：key共享長度，key非共享長度，value長度，key非共享內容，value內容。比如上面的「the car」和「the color」記錄，key共享長度5；key非共享長度是4；而key非共享內容則實際儲存「olor」；value長度及內容分別指出key:value中value的長度和儲存實際的value值。

上面講的這些就是.sst檔案的全部內部奧秘。

block格式及相關操作請參閱《leveldb原始碼分析-sstable：block》。

levelDB原始碼分析 SSTable

leveldb原始碼分析之sst檔案格式

leveldb原始碼分析1

Leveldb原始碼分析 1

levelDB原始碼分析 SSTable

leveldb原始碼分析之sst檔案格式

leveldb原始碼分析1

Leveldb原始碼分析 1

相關推薦