大資料處理檔案格式之ORC和Parquet選擇

2021-10-25 00:20:41 字數 792 閱讀 2747

在大資料處理中,因為無法按照傳統方式將海量資料存放到mysql中。所以各個框架都想辦法將這些資料很好存放起來,既能保證資料安全,有可以確保資料查詢地效能。

按照上述思路,出現了很多技術框架。

上述地框架,最終都會回到乙個地點,如何安全有效儲存資料到磁碟,畢竟資料放在記憶體中還是害怕斷電地。

這時候,就需要用到檔案格式了,不同檔案格式,壓縮比,查詢效率,通用性(框架支援是否廣泛),是否免費等就非常重要了。

目前,orc,parquet,text主要這三種常見地檔案格式,orc在hive下,壓縮比,查詢效率等都比parquet高,但是parquet的框架支援更廣泛。

parquet本身帶索引,列式儲存,可以壓縮,免費

text格式,則是最基礎格式,壓縮性不好,查詢也需要逐行讀取,但有乙個好處,可以直接閱讀。所以開發時測試經常使用。

綜上,大資料開發中,一般盡量使用parquet檔案格式

模擬,就像電腦硬體中,以前鍵盤滑鼠的介面各種各樣,後面出現了統一介面ps/2介面,但後續出現了更加通用的usb介面,由於usb通用性更強,支援更多裝置不侷限於鍵盤滑鼠,所以最後快速推廣開來。

就算現在出現了usb3,typec,雷電3,雷電4等介面,但這些介面和協議最後肯定是需要相容usb協議的,這就是通用性好的優勢。

這也是現在很多公司在主動積極嚮往外推廣自己的標準和平台,就是想增加應用廣泛度,最後依賴這種技術應用範圍形成自己的話語權。

安卓開源,mysql開源,linux開源等等,都是一樣的目的

大資料處理之(top k)

top k 簡介 在大量資料中找出重複次數最多的前k個。問題分析 聽起來這個問題十分簡單,只需對這些資料進行一次排序即可得到前k個。如果這樣的話,首先得定義乙個資料結構來儲存這些資料,大量的資料會消耗過大的程序資源,甚至 耗盡 程序的資源。還有乙個問題是排序的時間複雜度是非常高的,一般來說,較快的排...

大資料處理技術之資料整合

大資料處理技術是乙個十分重要的工作,就好比做菜,我們做菜之前就需要對蔬菜進行清洗,洗過的菜我們才能夠吃的放心,同時還有助於我們的身體健康。而大資料處理就好比清洗蔬菜一樣,當我們對資料整理以後,我們才能夠分析出乙個準確的結果。而大資料處理的技術有很多,其中最常見的就是資料整合,那麼什麼是資料整合呢?下...

資料處理之資料格式(二)

一 c 以3種不同的計數來書寫整數 基數為10 基數為16 基數為8。8進製以0開頭,16進製制以0x或0x開頭。include int main using namespace std int a 42 int b 0x42 int c 042 cout a b 66 0x42 in hex 66...