用DataJoin實現多資料來源的Reduce端鏈結

2021-08-27 19:42:14 字數 765 閱讀 2863

datajoin是hadoop處理多資料來源問題的乙個jar包,放在hadoop_home/contrib/資料夾下,使用該框架時,除了需要將jar包匯入到工程中,還需要將該jar包匯入到每個hadoop集群節點的hadoop_home/lib/包下。

下面我們來看下datajoin框架式如何處理多資料來源的連線的。

為了完成不同資料來源的鏈結,首先,需要為不同資料來源下的每個記錄定義乙個資料來源標籤(tag),接著,為了表示每個資料來源下的不同記錄並且完成連線處理,需要為每個資料記錄設定乙個主鍵(groupkey),然後,datajoin類庫分別在map階段和reduce階段提供乙個處理框架,僅僅留下一些任務有程式設計師完成。下面是處理過程:

[img]

[img]

從上述過程可以看到,多資料來源的資料會首先被處理成多個資料記錄,這些記錄是帶有標籤tag和主鍵group key的記錄,因此使用datajoin時,我們需要實現generateinputtag(string inputfile)方法和generatetaggedmapoutput(object value)和generategroupkey(taggedmapoutput arecord)方法,在這個過程中,出現了乙個新的類(即帶有標籤的記錄類),因此我們也要實現自定義的記錄類。在combine過程中,我們會對笛卡爾積的結果進行整合(這也是為何我們把datajoin叫做reduce端連線),因此我們需要實現乙個combine(object tags,object values)方法,注意這個combine和mapreduce框架中的combine是兩個完全不同的東西,忌混淆。

實現多資料來源事務

最近在重構專案中,需要相容多資料來源,故此實現下多資料來源事務。這次重構專案中,為了支援後續龐大的資料量接入,更迭了資料庫,但是為了要相容老版本,也不能直接拿掉老的資料庫。所以就有了相容多資料來源的需求,尤其是要保證事務。其實這個需求就是要實現分布式事務,但是我們的這個場景是在乙個服務內,所以可以利...

SpringCloud多資料來源實現

1 列舉多資料來源 定義一一對應變數 列出所有的資料來源key 常用資料庫名稱來命名 注意 1 這裡資料來源與資料庫是一對一的 2 databasetype中的變數名稱就是資料庫的名稱 public enum databasetype public static void setdatabasety...

SpringBoot實現多資料來源配置

spring.datasource primary url jdbc mysql localhost 3306 test1 spring.datasource primary username root spring.datasource primary password root spring.d...