資料統一的七原則

資料統一的七原則

「所有的可規模化系統，都必須自動進行絕大多數的操作。」

♦「『模式為先』（schema-first）的產品永遠無法規模化。唯一的選擇是採用『模式為後』（schema-last）的產品。」

♦ 「需要進行具體的域操作時，只有協作性的系統才可實現規模化。」

♦ 「為了實現可規模化，任何的統一計算必須在多個核心和多個處理器上執行。」

♦ 「儘管存在第四條原則，但真正的可擴充套件應用需要複雜性低於n **

2的並行演算法。」

♦「規則系統實現是無法規模化的。只有機器學習系統才能將規模擴充套件到大公司所需要的程度。」

♦ 「必須支援實時增量統一。」

資料統一可以說是資料分析

領域的乙個長期挑戰。雖然聯合式的方法獲得了一些青睞，但絕大部分的資料分析從業者希望在分析之前，所有資料都能在同乙個地方呈現出來。這意味著，來自不同實體的資料必須統一起來，而問題就出在這個地方。

在新***《可規模化資料統一的七原則》中，著名計算機科學家、tamr聯合創始人兼首席技術官麥可·斯通布雷克（michael

stonebraker）以其獨特和直白的方式，**了上述挑戰。

說到斯通布雷克這個人，他同時也是圖靈獎得主、麻省理工學院教授，以及大資料分析公司vertica（這家公司已經被惠普收購）的創始人。在那份***的開頭，他對資料統一進行了一番闡述。他說，資料統一由七步組成，包括獲取、清洗、轉換、模式整合、重複資料刪除、分類和匯出（但不要把這七步和七條原則搞混了）。

一般來說，企業主要使用兩種方法來實現資料統一，包括提取轉換載入（etl）和主資料管理（mdm）。

斯通布雷克說，這兩種方法各有利弊。

etl非常靈活，適合不同的資料**，使程式設計師可以手動編寫轉換程式，確保源資料的模式與集中式資料倉儲專案採用的全域性模式匹配。斯通布雷克說，由於自動化程度低，沒有多少公司的etl頻寬能超過20個資料來源。

至於mdm，它與etl類似的地方在於，也預設了乙個「主記錄」，每乙個專門類別（比如客戶、部件和**商）的所有檔案都應該符合主記錄的格式。但和etl不同，mdm不是使用手動定製指令碼，而是依靠一套「模糊合併」規則，把所有不同的檔案轉換成主格式。

但斯通布雷克說，不管是etl還是mdm，都無法解決所有的資料統一難題，尤其是在資料量很大的情況下。針對這些限制，他提出了資料統一的七條原則。

由於當今大資料集的龐大規模及其對程式設計師的苛刻要求，任何的可規模化資料統一專案都必須在很大程度上實現自動化，不能依靠手動編寫的程式。這催生了斯通布雷克的第一條原則：

「所有的可規模化系統，都必須自動進行絕大多數的操作。」

當今資料的多樣性也催生出乙個問題。比如，諾華製藥公司（novartis）想把1萬名從事「濕性實驗」工作的科學家的實驗記錄統一起來，但遇到了全域性模式問題。總之，靈活的「模式讀取」（schema-on-read）方法是解決資料多樣性問題的唯一方法。這催生了斯通布雷克的第二條原則：

「『模式為先』（schema-first）的產品永遠無法規模化。唯一的選擇是採用『模式為後』（schema-last）的產品。」

雖然自動化是資料統一的關鍵因素，但人類專家的地位是肯定取代不了的。就諾華的那個例子而言，只有科學家本人才能證實特定的乙個資料（比如新化合物的名字）是否準確，有沒有拼寫錯誤。這催生了第三條原則：

「需要進行具體的域操作時，只有協作性的系統才可實現規模化。」

對大規模資料統一來說，可擴充套件性必不可少。當資料集超過1000萬個檔案時，單個計算核心根本處理不了，更別說單個晶元或者單個電腦。這催生了第四條原則：

「為了實現可規模化，任何的統一計算必須在多個核心和多個處理器上執行。」

聚類演算法是資料統一和資料清洗工具的核心。雖然這些演算法是並行的，但如果太複雜的話，就會耗費太多時間。這催生了第五條原則：

「儘管存在第四條原則，但真正的可擴充套件應用需要複雜性低於n ** 2的並行演算法。」

很多mdm產品採用基於規則的方法來確定轉換。但考慮到當今企業試圖統一的資料體量和多樣性，這些方法行不通。這催生了第六條原則：

「規則系統實現是無法規模化的。只有機器學習系統才能將規模擴充套件到大公司所需要的程度。」

最後，資料統一系統必須適應客戶的工作方式。從技術上來說，雖然理論上可以靠「蠻力」更新每一條變化的記錄，但如果資料太多、變動頻繁，就會造成混亂。這催生了第七條也是最後一條原則：

「必須支援實時增量統一。」

斯通布雷克說，etl方法不符合第

一、第二和第三條原則，而mdm方法不符合第

一、第二和第六條原則。在大資料領域非常流行的自助式資料準備方法「至少」不符合第一和第三條原則。他還說，目前所有產品（etl、mdm和自助式資料準備）可能都不符合第五和第七條原則。

打破資料統一的七大原則

資料統一在資料分析領域裡是個長期的挑戰，從事資料分析的從業者希望在資料分析之前，來自不同實體的資料能夠在同乙個地方呈現出來。資料統一由七部分組成 1 獲取資料 2 清洗資料 3 轉換資料 4 模式整合 5 重複資料刪除 6 分類 7 匯出。一般而言，企業實現數統一有兩種方法，提取轉換載入 etl 和...

打破資料統一的七大原則

資料統一在資料分析領域裡是個長期的挑戰，從事資料分析的從業者希望在資料分析之前，來自不同實體的資料能夠在同乙個地方呈現出來。資料統一由七部分組成 1 獲取資料 2 清洗資料 3 轉換資料 4 模式整合 5 重複資料刪除 6 分類 7 匯出一般而言，企業實現數統一有兩種方法，提取轉換載入 etl 和...

資料統一的七原則

打破資料統一的七大原則

打破資料統一的七大原則

打破資料統一的七大原則

相關推薦