開源列式儲存引擎Parquet和ORC

**自董的部落格

相比傳統的行式儲存引擎，列式儲存引擎具有更高的壓縮比，更少的io操作而備受青睞（注：列式儲存不是萬能高效的，很多場景下行式儲存仍更加高效），尤其是在資料列（column）數很多，但每次操作僅針對若干列的情景，列式儲存引擎的價效比更高。

在網際網路大資料應用場景下，大部分情況下，資料量很大且資料字段數目很多，但每次查詢資料只針對其中的少數幾行，這時候列式儲存是極佳的選擇，目前在開源實現中，最有名的列式儲存引擎是parquet和orc，在最近一年內，它們都晉公升為apache頂級專案，可見它們的重要性。本文嘗試比較這兩種儲存引擎。

apache parquet

apache parquet 最初的設計動機是儲存巢狀式資料，比如protocolbuffer，thrift，json等，將這類資料儲存成列式格式，以方便對其高效壓縮和編碼，且使用更少的io操作取出需要的資料，這也是parquet相比於orc的優勢，它能夠透明地將protobuf和thrift型別的資料進行列式儲存，在protobuf和thrift被廣泛使用的今天，與parquet進行整合，是一件非容易和自然的事情。除了上述優勢外，相比於orc, parquet沒有太多其他可圈可點的地方，比如它不支援update操作（資料寫成後不可修改），不支援acid等。

apache orc

orc（optimizedrc file）儲存源自於rc（recordcolumnar file）這種儲存格式，rc是一種列式儲存引擎，對schema演化（修改schema需要重新生成資料）支援較差，而orc是對rc改進，但它仍對schema演化支援較差，主要是在壓縮編碼，查詢效能方面做了優化。rc/orc最初是在hive中得到使用，最後發展勢頭不錯，獨立成乙個單獨的專案。hive 1.x版本對事務和update操作的支援，便是基於orc實現的（其他儲存格式暫不支援）。orc發展到今天，已經具備一些非常高階的feature，比如支援update操作，支援acid，支援struct，array複雜型別。你可以使用複雜型別構建乙個類似於parquet的巢狀式資料架構，但當層數非常多時，寫起來非常麻煩和複雜，而parquet提供的schema表達方式更容易表示出多級巢狀的資料型別。

parquet與orc對比

總結

開源列式儲存引擎Parquet和ORC

列式儲存處理

列式儲存簡介

列式儲存一

開源列式儲存引擎Parquet和ORC

列式儲存處理

列式儲存簡介

列式儲存 一

相關推薦

列式儲存一