BTRFS設計簡介

當前linux檔案系統事實上的標準是extn(如ext3/ext4)，但extn只是發展了數十年的檔案系統的乙個延續，設計上缺少一些新的特性來滿足當前it系統的需求，如對大儲存容量的支援，高可靠性（冗餘支援，魯棒性），方便的volume管理技術等。btrfs設計之初就是為了成為下一代linux檔案系統而努力的，其許多特性可以稱之為「現代」: 高效的snapshot與clone，檔案系統與volume管理概念整合。這些在企業級應用中經常出現的重要特性，成為了btrfs天然自帶的一部分。可能很多人會聯想到solaris上的zfs，我們可以簡單地認為btrfs就是linux版的zfs。本文將主要講解btrfs設計以及實現上的一些重要特性。

ohad rodeh在他的**[1]

中通過修改b+tree結構，設計出了一種具備我們期望的檔案系統原型。而btrfs就是根據這個原型由chris mason(原oracle linux kernel團隊負責人，目前在fusionio)來實現完成的。btrfs設計的核心結構是一種cow(copy-on-write) friendly b+tree:

cow指的是整個btrfs內部不存在overwrite，即對任何資料(meta和data)的修改，都是將更新完的資料寫入到新的磁碟block中。cow的方式有一些好處：良好的事務性，對snapshot和clone的友好支援

b+tree是一種重要的資料結構，被廣泛應用在檔案系統，資料庫索引等諸多重要技術上。此處略過b+tree的介紹，先看看cow如何工作的:

當cow發生時，所有指向修改節點的節點也要cow，那麼對於b+tree來說，leaf chain(b+tree為了支援range lookup，把所有leaf都連線起來)就會造成整棵tree的cow，這顯然是不能忍受的。那麼ohad rodeh的改進包括:

取消leaf chain，這樣雖然不利於range lookup，但是cow就不需要修改整棵tree的結構

傳統b+tree的rebalance是自下而上(bottom-up)的方式，也就是說，當insert或者remove操作發生時，split或者merge首先發生在 leaf上，然後自下而上進行傳遞的；而ohad rodeh提出了自上而下(top-down)的方式。簡而言之，在insert或者remove操作之前，search路徑的遍歷過程中，一旦發現需要merge(當前是insert操作)或者split(當前是remove操作)的節點就主動進行預處理，然後繼續向下遍歷。這種主動rebalance的方式使整棵樹的平衡性更好，且所有操作在一次遍歷就可以完成

通過輔助的free-space map來管理block的ref-count。ref-count的方式比傳統的bitmap方式更加節約儲存空間，更高效地生成/刪除快照和轉殖，但卻給普通的修改操作帶來了額外的效能問題(由於採用cow方式，每次更新都需要同時修改block的引用計數)

所有節點(node和leaf)大小都為乙個完整的extent. extent代表磁碟上一組連續的block(乙個block大小為4kb)，extent是btrfs最小的分配單位。一般來說，讀寫一塊extent只需要一次io

所有meta與data資訊都是由 b+tree來進行管理的；所有b+tree的root都由root-tree來管理(除了chunk-tree)，而super block指向root-tree的根節點

所有extent都由extent-tree管理，負責分配與**extent，以及ref-count管理，ref-count機制不應用在extent-tree和root-tree上，這兩類tree直接分配新extent，釋放舊extent，舊的extent在checkpoint commit之後**。對於ref-count方式的**是通過遍歷extent-tree，並且支援跨越多個checkpoint來完成一次遍歷，使得**task粒度足夠細

所有meta和data資訊都採用fs-tree來管理。檔案系統相關的meta資訊(如inode，dentry等)都放在fs-tree中。這裡一棵fs-tree對應乙個物理分割槽或者乙個snapshot或者乙個clone；每個leaf(單個extent)直接包含meta的資料，而file data的資料則通過指標指向另外分配的extent（對於小檔案直接放在leaf extent中，有助於減少磁碟碎片）

所有extent都記錄checksum，由checksum-tree管理

btrfs將物理磁碟劃分為多個chunk(如大小為256m)，每個chunk分配的時候，可以標記為meta或者data chunk(這種劃分不是絕對的，必要時候可以互相轉換)，這樣meta和data不會混在一起儲存。另外chunk-tree維護了logical chunk到physical chunk的對映，所有的儲存分配都是基於logical chunk的(這部分由前面所說的extent-tree來負責完成)。同時physical chunk被分成多個group，目的是為了支援raid

btrfs還維護了一棵relocation-tree，目的是為了支援online的磁碟碎片整理。所謂relocation是基於chunk來操作的(而不是extent)，relocation會把需要處理的chunk中的所有extent以及對應的reference找出來，重新分配到新的chunk中

所有更新操作都採用cow，如果每次修改都寫到磁碟則開銷太大，因此全部修改先寫在記憶體中，週期性完成checkpoint，這樣可以延遲分配磁碟上的block，有利於優化分配策略，支援批量寫入等。

一次檔案的修改操作往往會修改多棵b+tree，事務語義通過cow來完成，自下而上修改，最終通過super block指向新的root-tree來完成一次事務，如果失敗(如系統crash)，那麼super block還是指向舊的root-tree，不會破壞原始資料

為了提高併發訪問，採用了一種叫做lock coupling的演算法[2]

，具體描述如下:

查詢操作用讀鎖，插入/刪除操作用寫鎖

鎖住當前節點前必須先鎖住其父節點，且必須是相同語義的鎖

查詢操作：當前節點必須鎖上其孩子節點之後才能釋放

插入操作：當前節點釋放鎖必須滿足：當前節點有足夠空間(至少允許插入乙個新索引)不會導致split且鎖住其孩子節點

刪除操作：當前節點釋放鎖必須滿足：不引發merge且鎖住其孩子節點，空節點只有在當前事務全部完成之後才被**

snapshot，clone都支援寫操作；產生snapshot或clone時，ref-count採用了延遲修改的方式，只修改root節點的所有direct children的ref-count，其餘ref-count在checkpoint時來修改完成

對於資料庫這樣的應用來說，由於需要write-ahead logging，會頻繁發生fsync操作，而由於我們的寫操作都是cow，所以會造成大量的冗餘，同時fsync也會造成頻繁commit整棵tree。因此每棵fs-tree都有一棵log-tree來記錄fsync請求到磁碟(臨時資料)，當整棵fs-tree commit checkpoint的時候，再把資料合入進來；而一旦系統crash，log-tree還可以負責replay log

btrfs功能很強大,該有的都有了，估計檔案系統做到這個份上已經到極致了；設計很優雅，全部通過b+tree一種核心結構來完成。但是缺點是效能比較差，雖然對meta的操作非常方便，但io效能一般；發展了五年，還不是很穩定，進展緩慢；沒有大規模的商業應用，只能算半成品。不過無論如何，btrfs代表了現代檔案系統的發展方向，相信未來linux社群會有更多突破性的工作展現出來。

1. ohadrodeh(2008). b-trees, shadowing, andclones. tos volume 3 issue 4, 2008 article no. 2

2. ohadrodeh(2012). btrfs: the linux b-tree filesystem. ibm research report

3. r. bayer and m. schkolnick. 1977. concurrency of operations on b-trees. acta informatica 9,1–21.

4. btrfs source: git:

5. btrfs wiki

BTRFS設計簡介

Btrfs 檔案系統

linux中btrfs檔案系統

btrfs基本介紹及應用困境

BTRFS設計簡介

Btrfs 檔案系統

linux中btrfs檔案系統

btrfs基本介紹及應用 困境

相關推薦

btrfs基本介紹及應用困境