企業在資料湖實施之前需要試水

2021-09-23 06:33:44 字數 1467 閱讀 1125

企業在實施大規模資料湖之前,應該從小規模開始,並將該技術作為對現有分析系統的擴充套件。

最近,資料湖已經開始在it行業湧現。資料湖是與附加資料管理系統相結合的資料儲存,而附加資料管理系統提供關於資料的分析,作為資料清理過程的一部分,通常是從其他分析環境(例如資料倉儲或資料集市)剝離的能力。

例如,資料倉儲的提取,轉換和載入預處理消除了告訴系統何時到達或插入「運算元據儲存」的日誌。

但在當今的行業中,資料湖似乎至少有兩個定義。乙個來自儲存公司的是,資料湖是允許元資料儲存的磁碟儲存基礎設施。另乙個主要是營銷驅動的,是混合通常不混合的多個資料儲存的乙個湖。根據專家的定義,沒有銷售全面資料湖的**商,而是人們使用hadoop和本地工具訪問資料來將它們拼湊在一起。

由於最初的**商炒作讓位於真實世界的實驗,使用者發現資料市場的最佳實踐並不適用於資料湖。為了避免早期使用者的錯誤,適當地解決資料湖的實施,而不是大規模。以下是一些在處理資料湖時證明有用的最佳實踐。

記住,資料湖是探索性的

資料湖實施應該允許組織以特別的和探索的方式擴充套件現有的分析。

從當前分析系統不會及時獲取的高度資料的核心(例如客戶事務日誌)中增長資料湖中的資料型別。大多數現有的分析不足以真實了解應用程式的行為。資料倉儲和hadoop等資料管理方案失去了重要的資料。

大資料分析系統提供商pentaho公司的首席技術官james dixon在部落格上例舉了乙個例子:資料倉儲等系統並不捕獲客戶購買過程中的每一步,而是事務日誌。這樣的購買過程的設計對於典型的資料架構師似乎是直接的,但是在每個步驟中可能有數分鐘甚至數小時的滯後。

通過發現流程中的滯後,使用者可以開始與客戶面對的資料湖實現,購買相關的交易。分析對企業的整體分析工作具有探索性和重要性,因為一旦使用者更徹底地分析客戶日誌時間戳,還不清楚會發現什麼。

資料集市,湖泊和倉庫之間有什麼區別?

資料集市是資料倉儲的變體。資料倉儲儲存來自整個組織的較舊的資料,用於報告和分析。多個資料集市大致相當於資料倉儲,通常在自己的it環境中為子公司服務。使用者可以有多個資料集市進入資料倉儲,或者只是鬆散耦合的資料集市。

整合是實現資料湖的關鍵

將資料湖與其他企業資料架構(包括資料治理和主要資料管理)完全整合也很重要。了解哪些資料型別對資料倉儲或資料集市很重要,以及原始資料是否正確和一致。實施資料治理實踐,以避免分析有缺陷的資料。

資料湖的長期發展

資料湖有潛力。但是,除非人們能夠更好地了解自己可以長期提供什麼,否則這很可能只是乙個時尚,除非他們的利益比迄今為止具體顯示的更廣泛。

dixon在併入時序和間距時的資料倉儲問題的例子只是當今的分析繼續依賴簡單統計資料,而不考慮什麼「壞」資料可以告訴人們的乙個例項。由於資料湖實施可以發掘分析中的關鍵「陷阱」,因此它值得任何企業進行探索。然而,從長遠來看,這需要實驗和仔細平衡資料湖和整體資訊架構。

企業資料湖構建之旅

摘要 隨著網際網路的發展,資料的規模和型別都呈現乙個 性的增長,對於這麼多型別的資料,如何進行有效的管理和儲存,包括資料的分析,這是大家要面臨的乙個問題。在武漢雲棲大會上,阿里雲高階產品專家吳華劍做了名為 企業資料創新之旅 構建自己的資料湖 的精彩演講。阿里雲儲存產品系列 隨著網際網路的發展,整個雲...

企業需關注ERP實施攻略三要素

erp 專案實施不僅僅是乙個it技術專案,它是現代管理的技術工具,是具有現代化先進管理理念的管理模式,它將推動企業管理觀念的更新,促進企業經營機制的轉換,提高企業管理水平,促進現代企業制度的建立。培訓是實施的關鍵 erp專案實施成功的重要保證之一就是要抓好培訓工作。每乙個領導 每乙個員工要自覺地適應...

寫在資料倉儲系列之前

接下來的一段時間內會整理總結資料倉儲的相關知識,可能暫時只是點,我會通過自己的工作感悟以及讀書筆記等逐漸將它們豐滿 起來。之所以選擇資料倉儲這個切入點,來進行知識整理,一方面是因為工作確實是以數倉為中心展開的,另一方面也是因為在做資料相關工作的時候,數倉是乙個繞不來的話題。無論是簡單的資料分析,還是...