第4章 並行資料載入

2021-07-14 08:09:29 字數 602 閱讀 1400

第4章 並行資料載入

本章簡述greenplum的資料載入特性。

在乙個大規模的,tb級的資料倉儲上,大量的資料必須在乙個較短的維護視窗中載入。greenplum支援快速的、並行資料載入和外部表功能。管理員可以選擇單行錯誤隔離模式的外部表以便將錯誤的資料過濾到乙個單獨的表中,同時繼續載入正確的格式化的資料行。管理員也可以通過設定載入選項的閾值,以便控制不正確格式化行數導致的greenplum資料庫引擎中止載入操作。

通過與greenplum資料引擎的並行檔案伺服器(gpfdist)結合使用外部表,管理員可以實現從greenplum資料系統最大並行度和負載頻寬。

greenplum的另外乙個功能是gpload,執行您在yaml格式的控制檔案指定裝載任務。你描述在控制檔案中的源資料位置,格式,需要轉換,參與的主機,資料庫的目的地,以及其他細節和gpload執行的負荷。這使您可以描述乙個複雜的任務,並在可控,可重複的方式執行。

並行資料庫

計算機系統效能 比的不斷提高迫切要求硬體 軟體結構的改進。硬體方面,單純依靠提高微處理器速度和縮小體積來提高效能 比的方法正趨於物理極限 磁碟技術的發展滯後於微處理器的發展速度,使得磁碟 i o 頸瓶問題日益突出。軟體方面,資料庫伺服器對大型資料庫各種複雜查詢和聯機事務處理 oltp 的支援使得對響...

第4章 資料預處理

inner join匹配查詢 select record date,city,age,category,price,gender,pay,mp from data1 inner join data2 on data1.id data2.id left join匹配查詢 select record d...

第4章 整合

4.1 尋找理想的整合技術的指導原則 避免服務方修改乙個欄位就引起消費方的修改 保證api的技術無關性 消費方應該能夠很簡單的使用服務方提供的服務,提供客戶端庫的做法會增加耦合。隱藏內部實現細節 4.2 musiccorp建立使用者介面 4.3 共享資料庫 資料庫整合 即消費者直接訪問資料庫 的缺點...