NoSQL理論之記憶體是新的硬碟，硬碟是新的磁帶

**：

「記憶體是新的硬碟，硬碟是新的磁帶」此話出自圖靈獎得主jim gray。

我理解這句話的意思是，我們應該把隨機io都放到記憶體中去，而把像磁帶一樣的順序io留給硬碟（這裡不包括ssd）。

如果應用沒有達到一定的級別，可能我們看上面兩句話都會覺得太geek，然而在應用資料量日益龐大，動態內容比例日益增大的今天，再忽視這個基本準則將會是乙個災難。

今天我們談一下這一理論在nosql產品中的展現。

我們先看一下幾個傑出的nosql代表，cassandra，mongodb，redis。他們幾乎都使用了同一種儲存模式，就是將寫操作在內

存中進行，定時或按某一條件將記憶體中的資料直接寫到磁碟上。這樣做的好處是我們可以充分利用內存在隨機io上的優勢，而避免了直接寫磁碟帶來的隨機io瓶

頸：磁碟尋道時間。當然，壞處就是如果遭遇宕機等問題時，可能會丟失一些資料。

解決宕機丟資料的問題有兩個方法：

1.實時記錄操作日誌

這時通常的做法是當乙個寫操作到達，系統首先會往日誌檔案裡追加一條寫記錄，成功後再操作記憶體進行寫資料操作。而由於日誌檔案是不斷追加的，因此也就保證了不會有大量的隨機io產生。

2.quorum nrw

這一理論是基於集群式儲存的，其原理是如果集群有n個結點，那麼如果我們每次寫操作需要至少同步到w個結點才算成功，而每次讀操作只要從r個結

點讀資料就一定能保證其得到正確結果（如果某一結點有此資料，既成功，如果所有r個結點都無資料，則說明無此資料）。而nrw之間的關係必須滿足n

< r + w 。其實這一理論並不難理解，我們可以將這個不等式做一下移項：r > n – w

，我們有n個結點，寫的時候最少寫w個才算成功，也就是w個結點有這份資料，那麼n-w就是說可能沒有某乙份資料的最大結點數。最多可能有n-w個結點沒

有某一資料，那如果我們進行資料讀取操作時，讀到大於n-w個結點，那麼必然有乙個以上的結點是有這份資料的。所以要求r > n – w。

所以可能你已經想明白了，為了防止資料丟失，我們採用的實際是簡單的冗餘備份的方法。資料寫到多台機器會比寫單台機器的磁碟快嗎？對。相對於直接的磁碟操作，跨網路進行記憶體操作可以更快。其最簡單的例子就是改進的一致性hash，（關於一致性hash請看這裡）：

上圖摘自amazon的dynamo文件，key的hash值位於a，b結點間的資料，並不是只存在b結點上，而是順著環的方向分別在c和d結點進行備份。當然這樣做的好處並不完全在於上面說的冗餘備份。

當然，很多時候是上面兩種解決方法同時使用以保證資料的高可用性。

當我們將記憶體當作硬碟來用的時候，我們必然會面臨容量問題。這也是我們上面說到的資料會定時flush到磁碟的原因，當記憶體中的資料已經超出可

用記憶體的大小，那麼我們就需要將其進行落地操作，對swap的過度使用是不符合我們初衷的，也是達不到高效隨機io的效果的。這裡也有兩種解決方案：

1.應用層swap

採用這種方法的有 tokyocabinet 和 redis

兩個產品。tokyocabinet主要是通過mmap提高io效率，而其mmap到的只有資料檔案頭部的一部分內容。一旦資料檔案大於其設定的最大

mmap長度（由引數xmsize控制），那剩下的部分就是純粹的低效磁碟操作了。於是它提供了一種類似於memcached的快取機制，通過引數

rcnum配置，將一些通過lru機制篩選出來的熱資料進行key-value式的快取，這一部分記憶體是和mmap占用的記憶體完全獨立的。同樣

的，redis在2.0版本之後增加了對磁碟儲存的支援，其機制與 tokyocabinet

類似，也是通過資料操作來判斷資料的熱度，並將熱資料盡量放到記憶體中。

2.多版本的資料合併

什麼叫多版本的資料合併呢？我們上面講 bigtable，或其開源版本

cassandra，都是通過定時將記憶體中的資料塊flush到磁碟中，那麼我們會想，如果這次是乙個update操作，比如 keya 的值從

valuea 變成了 valueb，那麼我們在flush到磁碟的時候就得執行對老資料 valuea

的清除工作了。而這樣，是否就達不到我們希望進行順序的磁碟io的目的呢？沒錯，這樣是達不到的，所以 bigtable

型別的系統確實也並不是這樣做的，在flush磁碟的時候，並不會執行合併操作，而是直接將記憶體資料寫入磁碟。這樣寫是方便很多，那讀的時候可能會存在一

個值有多個版本的情況，這時就需要我們來進行多版本合併了。所以第二種方法就是將一段時間的寫操作寫成乙個塊（可能並非乙個檔案），保證記憶體的使用不會無

限膨脹。在讀取時通過讀多個檔案塊進行資料版本合併來完成。

那如果儲存在磁碟的資料量是記憶體容量的很多倍，我們可能會產生許多個資料塊，那麼我們在獲取資料版本時，是否需要全部遍歷所有資料塊呢？當然不用，如果你看過bigtable**，相信你還記得它其中用到了 bloom-filter

演算法。bloom-filter

演算法最廣泛的應用是在搜尋引擎爬蟲中，它用於判斷乙個url是否存在於已抓取集合中，這一演算法並不百分之百精準（可能將不在集合中的資料誤判為在集合中，

但不會出現相反的誤差），但其在時間複雜度上僅是幾次hash計算，而空間複雜度也非常低。bigtable 實現中也用到了 bloom-filter

演算法，用它來判斷乙個值是否在某乙個集合中。而由於 bloom-filter

演算法的特點，我們只會多讀（機率很小），不會少讀資料塊。於是我們就實現對遠遠大於物理記憶體容量的資料的儲存。

NoSQL理論之記憶體是新的硬碟，硬碟是新的磁帶

硬碟不足掛載新的硬碟

virtualBox掛載新的虛擬硬碟

virtualBox掛載新的虛擬硬碟

NoSQL理論之 記憶體是新的硬碟，硬碟是新的磁帶

硬碟不足掛載新的硬碟

virtualBox掛載新的虛擬硬碟

virtualBox掛載新的虛擬硬碟

相關推薦

NoSQL理論之記憶體是新的硬碟，硬碟是新的磁帶