資料湖 大資料游泳的安全方式?

2021-09-23 06:58:20 字數 2162 閱讀 7972

自從pentaho公司首席技術官詹姆斯•狄克遜創造了「資料湖」這個詞,至今已有五年多的時間。他當時提出這個建議,「如果你認為資料集市是乙個經過清洗,方便消費的瓶裝水商店的『資料湖』,那麼資料湖則是乙個更自然狀態的水體。」這個比喻很簡單。但根據專家的經驗,許多終端使用者對這個的概念還有很多困惑。在這篇文章中,專家想澄清資料池是什麼,組織是否會考慮使用資料湖,以及他們使用資料湖所面臨的挑戰,並概述了一些支援資料湖軟體工具的發展。

資料湖提供了乙個處理大資料的方法。資料湖結合任何格式和任何型別的資料的海量儲存能力,以及改造和分析資料處理能力。通常,資料湖使用hadoop技術實現。來自不同**的詳細原始的資料被載入到乙個單一的綜合資訊庫,可以看到提供給使用者分析的任何資料。要理解為什麼資料湖已成為流行的這種方法與企業資料倉儲的對比是很有幫助的(edw)。在某些方面,乙個企業級資料倉儲就類似於乙個資料湖,可以作為整個組織的資訊的集中儲存庫。然而,資料載入到乙個企業級資料倉儲一般概括為結構化資料。工程資料倉儲系統是典型的基於關聯式資料庫的技術,其目的是為了處理結構化資訊。雖然已經在關聯式資料庫的可擴充套件性有了一些進步,他們一般沒有hadoop那樣的可擴充套件性。由於這些技術是不可擴充套件的,儲存到組織中的所有原始資料,採用它是不實際的。因此,有必要總結。與之形成對比的是,乙個資料湖包含了組織中產生的最詳盡的資料。所述的資料可能是結構化的資訊,如銷售交易資料,或非結構化資訊,例如在客戶服務互動中交換的電子郵件。

hadoop經常使用資料湖

hadoop可以儲存和管理大量後續分析處理的結構化和非結構化資料。hadoop的出現使其儲存大容量資訊更加實惠和可行,並且組織開始收集和儲存整個組織不同系統的原始細節。hadoop也成為非結構化資訊的儲存庫,如社交**和諸如日誌檔案的半結構化資料。事實上,人們的基準研究顯示,社會化**資料是第二個最重要的**,也在大資料分析中使用的外部資訊。

除了處理更大的卷和更多種類的資訊以外,資料湖能夠更快地獲得資訊。由於資料是以原始形式聚集,不需要預處理。因此,一旦產生和收集,其資訊可以被立即新增到資料湖。這種方法已經引起了一些爭議,許多行業分析師甚至廠商都在擔心資料湖會變成資料沼澤。一般情況下,圍繞資料來源缺乏治理的資料成為資料湖的焦點,這是乙個適當的話題。這些資料集應該像組織內的任何其他資訊資產一樣被管理。所面臨的挑戰是,大多數的治理的工具和技術已經為關聯式資料庫和edws開發。從本質上說,資料湖泊所使用的大資料技術已經超過了自己所需,而沒有提供為企業部署所需的所有功能。

另外,也許圍繞術語有一些輕微的爭議。專家提出這個問題,這樣,無論**商選擇的術語如何,人們可以識別資料湖和意識到的挑戰。cloudera的企業資料中心使用的術語來表示與資料湖本質上相同的概念。hortonworks也包含資料湖的術語。ibm公司承認資料湖的價值以及其在這個崗位的挑戰,但ibm公司的大資料傳播者吉姆•庫比拉斯說,質疑最近在linkedin所提到的職位的術語,「資料湖」術語並不是ibm**上的突出特色。

儘管面臨著爭議和挑戰,資料湖繼續增長受到廣泛歡迎。它們提供了資料科學的重要功能。首先,它們包含進行**分析的必要的詳細資料。其次,他們允許非結構化資料的有效訪問,如社交**或客戶互動等文字。對企業來說,該資訊可建立客戶和他們行為的乙個更完整的輪廓。資料湖也比傳統的edw可用架構提供更快的資料。而通過雲計算的基準研究資料和分析顯示,五分之一(21%)的組織實時了他們的資料。該研究還表明,這些組織通常對整合他們的資料都比較滿意,並在他們的結果方面更加自信。誠然,資料湖包含原始資訊,它可能需要更多的分析和操作,因為資料還沒有清洗掉,但時間就是金錢,速度更快的訪問往往會導致新的收入機會。在參與基準研究**分析的一半參與者表示,他們的分析已經創造了新的收入機會。

由於認識到缺乏治理和管理工具,一些機構毫不猶豫地採用資料湖,而其他公司也在採用。在這個領域的**商在此期間已經顯現出他們的能力。有些公司,例如informatica公司為了資料湖泊獲得世界edw資料治理能力。專家最新發布了一篇關於informatica的大資料功能,稱之為智慧型資料湖。其他廠商正在提高自己的edw能力。informationbuilders公司和teradata公司在今年春天都公布了資料湖。此外,新興的**商特別專注於資料湖泊。podiumdata表示,其提供了乙個「企業資料湖管理平台。」

那麼採用資料湖安全嗎?好了,就像你不知道如何游泳就不應該跳進湖中一樣,如果你沒有管理其資訊的計畫就不應該採用資料湖。資料湖可以充分利用大資料,並建立新的收入機會。而組織採用合適的工具和培訓之後,那麼資料湖可能值得一試。

大資料安全規範

大資料安全規範 大資料的安全體系分為五個層次 周邊安全 資料安全 訪問安全 認證 authentication和授權 authorization 訪問行為可見 錯誤處理和異常管理。下面依次說明 1.周邊安全技術即傳統意義上提到的網路安全技術,如防火牆等 2.資料安全包括對資料的加解密,又可細分為儲存...

的資料湖 資料湖 VS 資料倉儲 VS 資料中臺

資料行業的名詞越來越多,其中,資料湖 資料倉儲和資料中颱是比較熱門的詞彙,他們都與資料有關,他們之間又有什麼區別呢?資料湖 資料倉儲和資料中臺,他們並沒有直接的關係,只是他們為業務產生價值的形式有不同的側重。作為乙個集中的儲存庫,可以在其中儲存任意規模的所有結構化和非結構化資料。在資料湖中,可以儲存...

大資料 odps資料遷移方式

一共分為2種 tunnel批量資料通道 datahub實時通道。分類 阿里雲數加產品 開源產品兩類 1 maxcompute客戶端 是hadoop生態立的乙個資料匯入工具,依賴於hadoop環境。提供圖形化的操作介面,可以通過拖拽控制項的方式,方便地定義資料傳輸的拓撲 功能全面。datahub服務是...