行儲存與列儲存

2021-07-30 05:06:17 字數 1331 閱讀 5730

列式儲存(columnar or column-based)是相對於傳統關係型資料庫的行式儲存(row-basedstorage)來說的。簡單來說兩者的區別就是如何組織表(翻譯不好,直接抄原文了):

ø  row-based storage stores atable in a sequence of rows.

ø  column-based storage storesa table in a sequence of columns.

下面來看乙個例子:

從上圖可以很清楚地看到,行式儲存下一張表的資料都是放在一起的,但列式儲存下都被分開儲存了。所以它們就有了如下這些優缺點:

行式儲存

列式儲存

優點

ø  資料被儲存在一起

ø  insert/update容易

ø  查詢時只有涉及到的列會被讀取

ø  投影(projection)很高效

ø  任何列都能作為索引

缺點

ø  選擇(selection)時即使只涉及某幾列,所有資料也都會被讀取

ø  選擇完成時,被選擇的列要重新組裝

ø  insert/update比較麻煩

注:關係型資料庫理論回顧 - 選擇(selection)和投影(projection)

剛才其實跳過了資料裡提到的另一種技術:通過字典表壓縮資料。為了方面後面的講解,這部分也順帶提一下了。

下面中才是那張表本來的樣子。經過字典表進行資料壓縮後,表中的字串才都變成數字了。正因為每個字串在字典表裡只出現一次了,所以達到了壓縮的目的(有點像規範化和非規範化normalize和denomalize)

下面就是最牛的圖了,通過一條查詢的執行過程說明列式儲存(以及資料壓縮)的優點:

關鍵步驟如下:

1.     去字典表裡找到字串對應數字(只進行一次字串比較)。

2.     用數字去列表裡匹配,匹配上的位置設為1。

3.     把不同列的匹配結果進行位運算得到符合所有條件的記錄下標。

4.     使用這個下標組裝出最終的結果集。

列儲存與行儲存

上個月參加了乙個 雲儲存的技術討論會。這乙個月裡,陸續收到幾位同學討論 大資料儲存和處理的郵件。今天是週末,索性把這個月的交流內容整理寫下來,供各位參考。目前大資料儲存有兩種方案可供選擇 行儲存和列儲存。業界對兩種儲存方案有很多爭持,集中焦點是 誰能夠更有效地處理海量資料,且兼顧安全 可靠 完整性。...

列儲存與行儲存的區別

寫入 行儲存的寫入是一次完成,資料的完整性因此可以確定。列儲存需要把一行記錄拆分成單列儲存,寫入次數明顯比行儲存多。行儲存在寫入上占有很大的優勢 資料修改 行儲存是在指定位置寫入一次,列儲存是將磁碟定位到多個列上分別寫入。行儲存在資料修改也是佔優的 資料讀取 行儲存通常將一行資料完全讀出,如果只需要...

行儲存 VS 列儲存

概述 目前大資料儲存有兩種方案可供選擇 行儲存 row based 和列儲存 column based 業界對兩種儲存方案有很多爭持,集中焦點是 誰能夠更有效地處理海量資料,且兼顧安全 可靠 完整性。從目前發展情況看,關聯式資料庫已經不適應這種巨大的儲存量和計算要求,基本是淘汰出局。在已知的幾種大資...