資料統一的七原則

2022-09-18 16:30:15 字數 2248 閱讀 6740

資料統一的七原則

「所有的可規模化系統,都必須自動進行絕大多數的操作。」

♦「『模式為先』(schema-first)的產品永遠無法規模化。唯一的選擇是採用『模式為後』(schema-last)的產品。」

♦ 「需要進行具體的域操作時,只有協作性的系統才可實現規模化。」

♦ 「為了實現可規模化,任何的統一計算必須在多個核心和多個處理器上執行。」

♦ 「儘管存在第四條原則,但真正的可擴充套件應用需要複雜性低於n **

2的並行演算法。」

♦「規則系統實現是無法規模化的。只有機器學習系統才能將規模擴充套件到大公司所需要的程度。」

♦ 「必須支援實時增量統一。」

資料統一可以說是資料分析

領域的乙個長期挑戰。雖然聯合式的方法獲得了一些青睞,但絕大部分的資料分析從業者希望在分析之前,所有資料都能在同乙個地方呈現出來。這意味著,來自不同實體的資料必須統一起來,而問題就出在這個地方。

在新***《可規模化資料統一的七原則》中,著名計算機科學家、tamr聯合創始人兼首席技術官麥可·斯通布雷克(michael

stonebraker)以其獨特和直白的方式,**了上述挑戰。

說到斯通布雷克這個人,他同時也是圖靈獎得主、麻省理工學院教授,以及大資料分析公司vertica(這家公司已經被惠普收購)的創始人。在那份***的開頭,他對資料統一進行了一番闡述。他說,資料統一由七步組成,包括獲取、清洗、轉換、模式整合、重複資料刪除、分類和匯出(但不要把這七步和七條原則搞混了)。

一般來說,企業主要使用兩種方法來實現資料統一,包括提取轉換載入(etl)和主資料管理(mdm)。

斯通布雷克說,這兩種方法各有利弊。

etl非常靈活,適合不同的資料**,使程式設計師可以手動編寫轉換程式,確保源資料的模式與集中式資料倉儲專案採用的全域性模式匹配。斯通布雷克說,由於自動化程度低,沒有多少公司的etl頻寬能超過20個資料來源。

至於mdm,它與etl類似的地方在於,也預設了乙個「主記錄」,每乙個專門類別(比如客戶、部件和**商)的所有檔案都應該符合主記錄的格式。但和etl不同,mdm不是使用手動定製指令碼,而是依靠一套「模糊合併」規則,把所有不同的檔案轉換成主格式。

但斯通布雷克說,不管是etl還是mdm,都無法解決所有的資料統一難題,尤其是在資料量很大的情況下。針對這些限制,他提出了資料統一的七條原則。

由於當今大資料集的龐大規模及其對程式設計師的苛刻要求,任何的可規模化資料統一專案都必須在很大程度上實現自動化,不能依靠手動編寫的程式。這催生了斯通布雷克的第一條原則:

「所有的可規模化系統,都必須自動進行絕大多數的操作。」

當今資料的多樣性也催生出乙個問題。比如,諾華製藥公司(novartis)想把1萬名從事「濕性實驗」工作的科學家的實驗記錄統一起來,但遇到了全域性模式問題。總之,靈活的「模式讀取」(schema-on-read)方法是解決資料多樣性問題的唯一方法。這催生了斯通布雷克的第二條原則:

「『模式為先』(schema-first)的產品永遠無法規模化。唯一的選擇是採用『模式為後』(schema-last)的產品。」

雖然自動化是資料統一的關鍵因素,但人類專家的地位是肯定取代不了的。就諾華的那個例子而言,只有科學家本人才能證實特定的乙個資料(比如新化合物的名字)是否準確,有沒有拼寫錯誤。這催生了第三條原則:

「需要進行具體的域操作時,只有協作性的系統才可實現規模化。」

對大規模資料統一來說,可擴充套件性必不可少。當資料集超過1000萬個檔案時,單個計算核心根本處理不了,更別說單個晶元或者單個電腦。這催生了第四條原則:

「為了實現可規模化,任何的統一計算必須在多個核心和多個處理器上執行。」

聚類演算法是資料統一和資料清洗工具的核心。雖然這些演算法是並行的,但如果太複雜的話,就會耗費太多時間。這催生了第五條原則:

「儘管存在第四條原則,但真正的可擴充套件應用需要複雜性低於n ** 2的並行演算法。」

很多mdm產品採用基於規則的方法來確定轉換。但考慮到當今企業試圖統一的資料體量和多樣性,這些方法行不通。這催生了第六條原則:

「規則系統實現是無法規模化的。只有機器學習系統才能將規模擴充套件到大公司所需要的程度。」

最後,資料統一系統必須適應客戶的工作方式。從技術上來說,雖然理論上可以靠「蠻力」更新每一條變化的記錄,但如果資料太多、變動頻繁,就會造成混亂。這催生了第七條也是最後一條原則:

「必須支援實時增量統一。」

斯通布雷克說,etl方法不符合第

一、第二和第三條原則,而mdm方法不符合第

一、第二和第六條原則。在大資料領域非常流行的自助式資料準備方法「至少」不符合第一和第三條原則。他還說,目前所有產品(etl、mdm和自助式資料準備)可能都不符合第五和第七條原則。

打破資料統一的七大原則

資料統一在資料分析領域裡是個長期的挑戰,從事資料分析的從業者希望在資料分析之前,來自不同實體的資料能夠在同乙個地方呈現出來。資料統一由七部分組成 1 獲取資料 2 清洗資料 3 轉換資料 4 模式整合 5 重複資料刪除 6 分類 7 匯出。一般而言,企業實現數統一有兩種方法,提取轉換載入 etl 和...

打破資料統一的七大原則

資料統一在資料分析領域裡是個長期的挑戰,從事資料分析的從業者希望在資料分析之前,來自不同實體的資料能夠在同乙個地方呈現出來。資料統一由七部分組成 1 獲取資料 2 清洗資料 3 轉換資料 4 模式整合 5 重複資料刪除 6 分類 7 匯出。一般而言,企業實現數統一有兩種方法,提取轉換載入 etl 和...

打破資料統一的七大原則

資料統一在資料分析領域裡是個長期的挑戰,從事資料分析的從業者希望在資料分析之前,來自不同實體的資料能夠在同乙個地方呈現出來。資料統一由七部分組成 1 獲取資料 2 清洗資料 3 轉換資料 4 模式整合 5 重複資料刪除 6 分類 7 匯出 一般而言,企業實現數統一有兩種方法,提取轉換載入 etl 和...