資料資料採集之表同步策略

2021-10-11 21:32:18 字數 347 閱讀 9627

全量同步: 每天都將mysql表中所有的資料同步到hive的分割槽中[hive的每個分割槽中的資料都是當天的全量資料]

適用場景: 表的資料量不大,每天既有新增也有修改資料

新增同步: 每天將mysql中當天新增的資料同步到hive的分割槽中

適用場景: 表資料量比較大,每天只有新增資料

新增及變化同步: 每天將mysql中當天新增資料以及修改的資料同步到hive的分割槽中

適用場景: 表資料量比較大,每天既有新增也有修改資料

特殊同步: 表的資料基本不會怎麼改變,此時可以將mysql表的資料直接同步到hive表中[特殊同步的時候hive表一般是沒有分割槽],特殊同步一般只是同步一次不需要每天都同步

資料倉儲之資料同步策略

一般情況下表分為三個型別,分別是實體表 維度表和事務表 1.實體表 實體表,一般是指乙個現實存在的業務物件,比如使用者,商品,商家,銷售員等等。2.維度表 維度表,一般是指對應一些業務狀態,的解釋表。也可以稱之為碼表。比如地區表,訂單型別,支付方式,審批狀態,商品分類等等。維度表可以分為兩類 一般維...

資料倉儲之資料同步策略

1.資料同步 因為我們需要每天分析的資料都是最新的!所以就涉及資料的同步 2.表的種類及其概念 一般情況下表分為三個型別,分別是實體表 維度表和事務表 2.1 實體表 實體表,一般是指乙個現實存在的業務物件,比如使用者,商品,商家,銷售員等等。2.2 維度表 維度表,一般是指對應一些業務狀態,的解釋...

資料倉儲 資料同步策略

二.資料同步策略 一般是指乙個現實中存在的業務物件,實體表它放的資料一定是一條條客觀存在的事物資料,比如使用者,商家,商品等 某東上的某某人參丸就是乙個實體 3。一般是指業務中的一些狀態,的解釋表 也稱為碼表 維度表可以看成是使用者用來分析乙個事實的視窗,它裡面的資料應該是對事實的各個方面描述。維度...