DataWorks 下一代智慧型資料工場

2021-09-22 10:54:43 字數 2693 閱讀 7535

阿里巴巴從2023年開始從hadoop搭建資料平台體系,資料工場與以前體系一脈相承,有了資料工場後,大家不用再自建資料工場,資料平台會建立乙個雲服務。

從自建水電煤廠->水電煤成為基礎設施服務;從自建it資料中心->使用雲計算服務,雲計算本質上解決了運維問題;從自建大資料平台->使用雲資料平台服務;資料工場(dataworks),你值得擁有!

數加平台想要做的就是普惠大資料,因為搭建乙個資料平台需要一定成本。資料平台不僅僅是搭建一套hadoop平台,阿里也是在hadoop平台基礎上自研了maxcompute,hadoop並不是數倉原配,除了計算平台外,還包括基本排程原資料系統、資料抽取、資料儲存、資料傳輸等周邊工具更加考驗資料團隊,比如資料整合、資料研發、資料質量和資料安全等很多是需要公司到達一定規模才需要建設的。

圖中列出了阿里大資料平台涉及的所有領域,做到:

存:資料大集中,maxcompute統一儲存和計算;

通:統一規範,打通各個業務部門,推動資料開放和交換;

用:資料化運營,運營資料;

資料工場架構如圖,底層是計算平台,上面有gateway集群,再向上從基礎的資料整合排程資料治理的幾大件。

dataworks-八大模組-資料資源平台如圖,底部為阿里主打的幾個計算平台,資料匯聚即資料整合,比如阿里內部每天吞吐量為幾百t資料,資料產品的資料開發、監控運維、資產管理質量安全等,平台管理採用多租戶模型、賬號許可權體系,以及計量計費。

1)與其他bu合作方合作方式。說明:有開放合作方式且可行。

2)與其他產品也有重合。a:規劃中的與已有產品有重合的點。b:可差異化合作的點,突出對方現在有兩個差異化點,再造全部的輪子。

資料整合的能力如圖,我們可以做到任意資料來源、任意格式、任意位置、任意複雜網路環境下的高效資料採集傳輸。資料整合datax客戶端是開源的,滴滴和愛奇藝都在使用做資料同步,它支援資料來源特別多,是正交關係,我們是乙個外掛程式式架構,任意新加乙個資料來源,再自己寫一套讀寫外掛程式提交即可,讀寫外掛程式實現並不難,許多人都在這樣使用融入體系。

我們支援結構化資料到非結構化資料、二進位制資料,我們解決了大量網路環境複雜度問題,還有跨公網傳輸、跨國傳輸,如果熟悉商用資料倉儲軟體,就會發現其中的好處,跨公網是指自家機房上傳資料到阿里雲,我們會做資料的斷點續傳、分塊壓縮、協議層優化,尤其對於跨國網路、跨運營商網路,速度提公升幾十倍都是可能的。我們既支援離線資料,又支援實時的binlog解析。

阿里排程有數百萬規模,位居全國第一。資料同步sql、mr、shell和機器學習,我們把機器學習和大資料開發任務做成乙個有向無環圖進行任務排程。

監控告警和智慧型**如圖,阿里內部有乙個基線機制,很多資料的產出必須要強保障,很多任務影響線上生產,出問題後果很嚴重。如果6點一定要產出任務,前面可能經歷了幾十個節點,任意乙個環節出問題,後面就產出不了,這就需要智慧型**機制,它會根據歷史經驗做一些預判,當a失敗時,每一步最多能夠等多久,都能計算出來,給我們充足時間處理任務。

元資料中心分為離線和實時統一,有了統一的元資料中心才能從智慧型監控告警到資料治理到資料血緣探查,包括資料地圖和元資料服務。

資料質量幫助覆蓋資料處理全鏈路資料質量監控。具體如下:

源資料清洗規則,有效過濾源頭髒資料;

10+萬條監控規則,全方位監測資料質量;

監控系統平均每天攔截髒資料上百次,每年避免資料故障數以千計;

源端資料變更,可自動分析受影響方並提前通知;

資料質量問題通過線上系統流轉和解決;

圖為雲上資料流轉全鏈路保護方案。我們是個開放的體系,資料安全要求很高,因此有資料安全保護傘這樣乙個單獨模組,這個模組是可以整合在dataworks裡面整合一起使用。

資料服務體系如圖,其中資料交換服務是我們目前在公共雲和專有雲想要做的一些探索,資料交換服務除了多租戶資料授權服務,還有資料安全交換區服務;資料開放服務包括互動式資料服務引擎,資料api閘道器服務,資料api授權鑑權服務。基於這些基礎設施,我們會提供資料交換共享平台,也會提供基礎大資料門戶。

dataworks提供三種資料服務,具體包括:

資料分享交換平台如圖,除了傳統的資料交換技術積累,我們還探索了基於區塊鏈的資料交易存證和溯源技術。

XR,下一代搜尋

我們未來會陸續推出一系列文章,而本篇則是開宗明義的第一章,希望能藉此機會和更多開發者互相交流對搜尋 xr的理解,以及對其未來發展的看法 xr,下一代網際網路 我們認為,xr是下一代網際網路的核心要素,也是手機之後的下一代終端裝置,原因有以下兩點 首先,ar vr更符合人類的認知方式,因為我們每個人都...

XR,下一代搜尋

我們未來會陸續推出一系列文章,而本篇則是開宗明義的第一章,希望能藉此機會和更多開發者互相交流對搜尋 xr的理解,以及對其未來發展的看法 xr,下一代網際網路 我們認為,xr是下一代網際網路的核心要素,也是手機之後的下一代終端裝置,原因有以下兩點 首先,ar vr更符合人類的認知方式,因為我們每個人都...

Polymer Google的下一代Web UI庫

由原palm webos開發enyo框架的團隊加盟google後打造。基於shadow dom,custom elements,mdv等最新瀏覽器特性,支援web components,代表了下一代web框架的方向 一切皆元件,儘量減少 量,儘量減少框架限制。當然,這也意味著google現在有三個相...