Hive 資料倉儲 資料型別的選擇

2021-10-04 15:29:33 字數 462 閱讀 4775

hive 有很多的基礎資料型別,在實際構建數倉的這麼多資料型別,我們該如何選擇呢?

如果你的公司足夠大,那麼建議參照以下幾條建議:

1) hive 中double型別需要慎用, hive 中double型別存在失真。

例如: 原始資料是 10000, hive 中10000 可能為10000.0001

2)  為了浮點數越界,或者失真的問題,建議不論原始資料是 float, double 或者 decimal 統一儲存為 decimal。

建議所有的數值型別,都儲存為bigint。 目的是 為了防止數值型別範圍變大,導致數值越界的問題。  

char,varchar 都定義為 string 。因為 char, varchar 雖然 hive 高版本已經支援,但是為了防止資料越界複雜的問題,還是推薦儲存為 string 型別。

建議 date 統一定義為 strng型別,(至少在ods 是這樣儲存的) 

Hive 資料倉儲

hive命令列模式 1 進入bin 執行.hiv 2 配置hive環境變數,直接執行命令 hive service cli 或 hive hive的web模式 執行hive service hwi 啟動後訪問http master 9999 hwi hive的遠端服務 預設埠 10000,執行啟動命...

資料倉儲Hive

資料倉儲是乙個面向主題的 整合的 相對穩定的 反映歷史變化的資料集合,用於支援管理決策。根本目的是為了支援企業內部的商業分析和決策,基於資料倉儲的分析結果,做出相關的經營決策.資料倉儲中的資料比較穩定,保留了大量歷史資料 而資料庫只儲存某一時刻的資料.對於傳統資料倉儲來說,既是資料儲存產品也是分析產...

資料倉儲Hive

乙個公司裡面不同專案可能用到不同的資料來源,有的存在mysql裡面,又的存在mongodb裡面,甚至還有些要做第三方資料。但是現在又想把資料整合起來,進行資料分析。此時資料倉儲 data warehouse,dw 就派上用場了。它可以對多種業務資料進行篩選和整合,可以用於資料分析 資料探勘 資料包表...