Go 大資料生態迎來重要產品 CDS

2022-01-10 20:41:28 字數 795 閱讀 3242

clickhouse是乙個用於聯機分析(olap)的列式資料庫管理系統(dbms)。它有著優異的效能,可以快速部署和執行。

不過要想使用clickhouse搭建起數倉用於資料分析,乙個重要的問題就是資料如何進入clickhouse?

我們希望資料來源的變化能夠自動實時地被同步到clickhouse,而且支援方便的動態的新增新的資料來源(新的資料庫,表),

能夠自動的生成對應資料來源的schema。

go-zero團隊使用go語言圍繞clickhouse開發了一些方便的元件與服務。

我們得到了下面這樣的資料同步設計

該資料同步系統大致由以下三部分組成

dm 全量同步服務 github.com/tal-tech/cds/dm

rtu 實時增量同步服務 github.com/tal-tech/cds/rtu

galaxy 網頁控制台服務 github.com/tal-tech/cds/galaxy

流程如下:

上述服務的開發使用了go語言。借助於go-zero中的工具包,如goctl等,

我們快速實現了它。它還加入了支援自適應mongodb結構變化,支援資料分表等。

我們相信這是go語言與clickhouse探索大資料的乙個不錯的起點,我們希望有更多的人能夠參與進來。

大資料生態

目前而言,不收費的hadoop版本主要有三個 均是國外廠商 分別是 apache 最原始的版本,所有發行版均基於這個版本進行改進 cloudera版本 cloudera s distribution including apache hadoop,簡稱cdh hortonworks版本 horton...

大資料技術生態體系

1 sqoop sqoop是一款開源的工具,主要用於在hadoop hive與傳統的資料庫 mysql 間進行資料的傳遞,可以將乙個關係型資料庫 例如 mysql,oracle 等 中的資料導進到hadoop的hdfs中,也可以將hdfs的資料導進到關係型資料庫中。2 flume flume是clo...

大資料技術生態體系

大資料技術生態體系如圖2 26所示。圖中涉及的技術名詞解釋如下 1 sqoop sqoop是一款開源的工具,主要用於在hadoop hive與傳統的資料庫 mysql 間進行資料的傳遞,可以將乙個關係型資料庫 例如 mysql,oracle 等 中的資料導進到hadoop的hdfs中,也可以將hdf...