企業資料湖構建之旅

2021-09-20 11:20:29 字數 2389 閱讀 2869

摘要:隨著網際網路的發展,資料的規模和型別都呈現乙個**性的增長,對於這麼多型別的資料,如何進行有效的管理和儲存,包括資料的分析,這是大家要面臨的乙個問題。在武漢雲棲大會上,阿里雲高階產品專家吳華劍做了名為「企業資料創新之旅-構建自己的資料湖」的精彩演講。

阿里雲儲存產品系列

隨著網際網路的發展,整個雲儲存資料量的規模呈**性的增長,包括日誌型、交易、應用等資料,而且資料型別也越來越豐富。面對這樣的需求,阿里雲儲存推出了一系列的雲資料庫型別,包括塊儲存、檔案儲存、物件儲存、oss歸檔儲存和**儲存等。對於傳統企業上雲,阿里雲也推出了面向混合雲的產品,比如混合雲儲存陣列、容災備份一體機、備份服務、閃電立方等產品。阿里雲有這麼全面的產品家族,那是什麼支撐著呢?其實是因為阿里雲有自研的分布式儲存系統:盤古高效能儲存引擎。目前盤古的儲存不僅支撐阿里雲公有雲上的儲存產品,也是阿里巴巴集團內部,像天貓、**、螞蟻金服等各類服務儲存的基石。針對於面向金融、人工智慧、能源、製造業等各個場景的低延時到高吞吐的儲存需求,阿里雲都有相應的產品型別。

在整個企業資料湖的構建過程當中,從資料的採集到資料儲存再到分析和消費,其實是有分多個階段的,在這多個階段裡面,阿里雲推出了一系列的解決方案。例如在資料採集方面,阿里雲可以支援應用程式資料、日誌資料、基因資料、流失的資料等等。另外阿里雲推出了阿里雲日誌儲存服務,oss也支援像開源日誌匯入的服務,同時針對iot的資料也有像iot、datahub這樣的資料採集的產品。在儲存方面,阿里雲推出了物件儲存,可以支援海量的結構化和非結構化的資料儲存,同時oss也是hadoop官方支援的預設儲存型別,這也是中國唯一一家被hadoop官方支援的儲存產品,使用者的hadoop應用可以完全不改任何**去處理oss上的資料。同時阿里雲的**儲存,能夠非常好的支援像iot這樣的流失資料的儲存。在整個資料湖構建的採集、儲存、消費等整個流程,阿里雲都提供了相應的解決方案,滿足大家對資料湖的構建要求。

企業應用構建案例

雲儲存技術引擎

阿里雲儲存針對資料進行計算和分析,在近期又取得了巨大的進展。首先是阿里雲對於檔案系統家族,推出了cpfs並行檔案系統,這個產品阿里雲正在公測,而且有些做科研的客戶正在使用這個產品。cpfs並行檔案系統有乙個非常明顯的特點,它可以極大地提高阿里雲單使用者的吞吐。同時阿里雲和戰略合作夥伴intel一起在hadoop社群裡面,針對hadoop的應用訪問oss做了大量的優化。hadoop在訪問oss的時候,阿里雲在hadoop的客戶端進行了多執行緒預讀的優化,同時在整個資料寫入到oss的時候,阿里雲也進行了非同步的效能提公升。另外對於元資料的操作,阿里雲也進行了大量的優化。當整個系統優化完之後,阿里雲進行了乙個tpc ds測試,阿里雲測試了200g的資料集並與其他廠商進行對比,阿里雲oss的執行效率提公升了15%左右,可以為使用者節省15%的計算資源,不但提公升了業務的效率,而且大大降低了成本。

同時阿里雲oss在服務端也進行了大量的技術優化,最近阿里雲會提供乙個服務端預讀的功能,阿里雲面向像hadoop的大資料分析、機器學習等場景會進行優化,會在近期上線,讓大家使用。關於服務端優化,現在也已經有客戶在使用,而且執行效率提公升了35%以上,對客戶的業務有很大的幫助。另外oss select現在也開始公測,原來的資料儲存到oss之後,當讀取資料的時候需要把整個資料都讀取出來。比如搭乙個spark應用的時候,需要把整個資料讀取出來之後再去做一些分析和處理,現在可以使用oss select功能,只要使用簡單的sql語句,就可以選取需要的內容,大大地減少執行的時間。阿里雲也做了個基於oss select的測試,整個執行時間從78秒減少到11秒,效能提公升了600%。阿里雲最近推出的datalakeanalytics產品,它可以支援對oss上的產品做查詢分析,將oss上儲存的csv、text、json和一些鏈式儲存的資料,可以使用datalakeanalytics做查詢分析,這個產品相容標準sql,包括jdbc、odbc的標準,可以幫助大家快速去搭建乙個查詢、分析的平台,可以減少時間,提公升研發效率。

Isilon三款新品構建資料湖2 0策略

公司的邊緣資料一直是被忽略的存在,據esg的報告顯示,將近70 的公司存在邊緣辦公室,並且邊緣資料達到了10pb。如何將這些邊緣資料管理起來成為乙個挑戰,因為邊緣資料在儲存上存在一定的技術壁壘,isilon則發布3款新產品isilonsd edge 新一代isilononefs作業系統 新一代isi...

企業在資料湖實施之前需要試水

企業在實施大規模資料湖之前,應該從小規模開始,並將該技術作為對現有分析系統的擴充套件。最近,資料湖已經開始在it行業湧現。資料湖是與附加資料管理系統相結合的資料儲存,而附加資料管理系統提供關於資料的分析,作為資料清理過程的一部分,通常是從其他分析環境 例如資料倉儲或資料集市 剝離的能力。例如,資料倉...

資料湖概要分析

資料湖是一種不斷演進中 可擴充套件的大資料儲存 處理 分析的基礎設施 以資料為導向,實現任意 任意速度 任意規模 任意型別資料的全量獲取 全量儲存 多模式處理與全生命週期管理 並通過與各類外部異構資料來源的互動整合,支援各類企業級應用。用阿里的資料架構圖來說 簡單來說,資料湖的定義就是原始資料儲存區...