Hadoop Parquet格式入門

2021-10-18 16:22:44 字數 815 閱讀 8674

parquet是一種開源檔案格式,可用於 hadoop 生態系統中的任何專案。與基於行的檔案(如csvtsv檔案)相比,apache parquet專為高效且效能良好的平面柱儲存格式而設計。

parquet使用record shreddingassembly演算法,該演算法優於巢狀命名空間的簡單拼合。parquet 經過優化,可批量處理複雜的資料,並採用不同的方式進行高效的資料壓縮和編碼型別。此方法最適合需要從大型表中讀取某些列的查詢。parquet只能讀取所需的列,因此極大地將io 最小化

csv 是一種簡單且廣泛傳播的格式,由許多任務具(如 excel、google **)使用,許多其他工具都可以生成 csv 檔案。即使 csv 檔案是資料處理管道的預設格式,它也有一些缺點:

amazon athena和 spectrum 將基於每個查詢掃瞄的資料量收費。

google 和亞馬遜會根據 gs/s3 上儲存的資料量向您收費。

parquet幫助其使用者將大型資料集的儲存需求至少減少了三分之一,此外,它還極大地改善了掃瞄和去序列化時間,從而降低了總體成本。

下表比較了將資料從 csv 轉換為 parquet 獲得的節省和加速。

RAW格式 RAW RGB格式

1.1 影象感測器 通過乙個乙個的感光點對光進行取樣和量化 通常所說的130萬畫素等,指的是有130萬個感光點。每乙個感光點只能感光rgb中的一種顏色。但是,要還原乙個真正影象,需要 每乙個點都有rgb三種顏色 所以,對於ccir601或656的格式,在sensor模組的內部會有乙個 isp模組 會...

qcow格式 raw格式

與普通的 raw 格式的映象相比,有以下特性 a 更小的空間占用,即使檔案系統不支援空洞 holes b 支援寫時拷貝 cow,copy on write 映象檔案只反映底層磁碟的變化 c 支援快照 snapshot 映象檔案能夠包含多個快照的歷史 d 可選擇基於 zlib 的壓縮方式 e 可以選擇...

rar格式與zip格式

區別一 zip 的安裝比較大,並僅僅有英文版 漢化包 rar有官方的簡體中文版,並且安裝很小,不足一兆 區別二 winrar 的壓縮率較高,而zip 的壓縮率更低 區別三 zip 支援的格式很多,但已經較老,不大流行 rar支援格式也很多,並且還是流行的 區別四 zip 僅僅能夠壓縮成zip 格式,...