大資料匯流排 DataHub

2021-09-19 21:49:43 字數 1402 閱讀 3353

本頁目錄

datahub作為乙個流式資料匯流排,為阿里雲數加平台提供了大資料的入口服務。結合阿里雲眾多雲產品,可以構建一站式的資料處理平台。流計算通常使用datahub作為流式資料儲存頭和輸出目的端。

注意: datahub在公有雲使用需要使用者授予實時計算代為使用者訪問datahub許可權,具體請參看流計算角色授權。否則可能出現報錯「no permission」的情況。

注意:不要使用(/)結尾

vpc模式支援

當前datahub不提供vpc模式,因此實時計算當前使用datahub的經典網路位址(endpoint)即可。

內外網選擇填寫datahub的project。

注意:**跨屬主的資料儲存不能註冊。例如a使用者擁有datahub的projecta,但b使用者希望在流計算使用projecta,目前流計算暫不支援這類使用場景下註冊,若需使用可使用明文方式,具體參考建立資料匯流排源表或建立資料匯流排結果表。

由於datahub本身是流資料儲存,流計算只能將其作為流式資料輸入和輸出,無法作為維表引用。有關datahub ddl定義,請參看具體章節。

q: 為什麼我註冊失敗,失敗原因提示***?

a: 實時計算的資料儲存頁面能夠協助您完成資料管理,其本身就是使用相關儲存sdk代為訪問各類儲存。因此很多情況下可能是您註冊過程出現問題導致,請排查如下原因。

q: 為什麼資料抽樣僅僅針對時間抽樣,不支援其他字段抽樣?

a: datahub定位是流資料儲存,對外提供的介面也只有時間引數。因此,實時計算也只能提供基於時間的抽樣。

注意:本小節僅限於公共雲場景,不包含專有雲情況。

所謂的內網和公網是相對於阿里雲集群來說。我們可以將阿里雲計算視為乙個跨地域的大型計算集群。集群內部之間的網路傳輸可以使用阿里雲內網,這樣可以有效地節省網路頻寬成本。

例如,實時計算使用阿里雲內部網路頻寬訪問rds。

對於外部(例如internet)網路請求阿里雲服務,則需要使用公網位址。實時計算註冊datahub過程中,要求使用者必須提供datahub內網endpoint位址。 但對於外部資料寫入datahub而言,則需要填寫datahub公網位址。如下圖所示。

例如,在當前pc使用logstash採集傳輸日誌。

本文**實時計算——

大資料匯流排(datahub)

建立資料匯流排(DataHub)結果表

datahub作為乙個流式資料匯流排,為阿里雲數加平台提供了大資料的入口服務。結合阿里雲眾多雲產品,可以構建一站式的資料處理平台。實時計算 flink通常使用datahub作為流式資料儲存頭和輸出目的端。同時,上游眾多流式資料,包括dts iot等均選擇datahub作為大資料平台的資料入口。dat...

建立資料匯流排(DataHub)源表

datahub作為乙個流式資料匯流排,為阿里雲數加平台提供了大資料的入口服務,共同構建一站式的資料處理平台。實時計算 flink通常使用datahub作為流式資料儲存頭和輸出目的端。同時,上游眾多流式資料,包括dts iot等均選擇datahub作為大資料平台的資料入口。datahub本身是流資料儲...

匯流排之位址匯流排 資料匯流排 控制匯流排

cpu是通過位址匯流排來指定儲存單元的,因此匯流排位址上能傳送多少個不同的資訊,cpu就可以對多少個儲存單元進行定址 乙個cpu有n根位址線,那麼可以說這個cpu的位址匯流排的寬度為n,這樣的cpu最多可以尋找2的n次方個記憶體單元 cpu與記憶體或者其他器件之間的資料傳輸時通過資料匯流排來進行的。...