回首資料平台建設心路,探索資料架構新方向

2021-10-12 06:16:51 字數 3054 閱讀 8714

三、平台發展新機遇

四、平台建設挑戰

五、平台未來展望

資料整合指的是將多種、多樣的資料進行匯聚的一種行為,大資料中我們常用etl來進行更加詳細的表達這種行為。etl是每個大資料平台不可或缺的一部分,宗旨一般都是為企業提供穩定、可靠、安全的資料傳輸服務,多年前以datax為代表的離線資料同步工具已經具備了多源異構資料同步能力,而近年來離線儲存體系並沒有發生大面積的更迭,所以如果乙個etl產品的定位是離線資料同步,那經過這幾年的沉澱和發展其產品應該已經足夠成熟。

但是技術的推陳出新總是讓人措手不及,當前階段新的業務需求和下游技術的發展都對更具時效性的etl提出了訴求,比如需要目標端對接更多管道類大資料元件(如:kafka、pulsar等)以及源頭端需要適配更多接資料庫及元件(如:canal、databus、maxwell、debezium等),而下一階段將資料「入湖上雲」更是乙個觸手可及的市場,可以肯定的是各大雲廠商會帶著自己的遷移工具到企業中去,而乙個橫向的、跨雲的資料同步服務工具也會有市場空間的。綜上來講,乙個離線資料同步產品如果想快速響應新的訴求並抓住下一階段的市場機會,一次系統架構調整相比較於在現有產品上添磚加瓦應該是更具有意義的,或者說乙個全新的技術體系產品也可能是更好的選擇。

根據專家估計,隨著近年來資料規模呈幾何級數高速增長,到2023年需要處理的資料量會大大超過處理能力的上限,從而導致大量資料因無法或來不及處理,而處於未被利用、價值不明的狀態,這些資料被稱為「暗資料」,由此引起的整個網路、儲存、計算、傳輸、結構等方面的變革我們暫且不展開。本文我們將討論內容限定為企業內部,那麼從谷歌發布大資料的三篇文論至今,大資料的儲存和計算的技術已經很成熟,現有的計算框架足以應對當前的計算需求,但,也只是應對。企業級計算能力的前提下,如何更好的將金融、**、保險等行業的跑批耗時大幅度的壓縮,我認為可以從以下三方面入手:

有一句話是:「實時計算不會取代離線計算」,談「替換」需要太大的勇氣,更何況在一些傳統資料架構企業或業績導向企業,實時計算更多的是在扮演一些體驗優化、離線計算功能補充的角色。當前的應用深度和企業資料架構並不利於使實時計算成為乙個業務驅動引擎。而在諸如滴滴、順豐等網際網路與物流企業中,他們對實時計算有天然的需求,便捷的實時資料獲取,使得實時計算平台可以實現大量的低延時業務的需求;阿里巴巴內部已經基於實時計算引擎(flink)改造出了乙個通用演算法平台(alink),可以看到的是在不久的未來,離線、實時、ai一定是朝著融合的方向發展。這裡我們可以先看一下目前實時計算的架構圖,如下:

相對低成本的實時資料獲取是實時計算發展的基礎,得益於flink技術的繁榮發展,未來的實時計算將會成為一座橋梁,一邊連線傳統的離線計算一邊探索與ai的融合,簡單羅列如下:

如今塞班、黑莓紛紛退出歷史舞台,三星手機的銷量也今非昔比。這麼多年技術領域不變的是一直在變化,而在變的只是變化週期和速度。2c或靠平台運營來實現公司主要收入的商業模式更容易收到技術革新的衝擊或帶動。在數位化轉型的大趨勢下,以推動企業現有架構變革或希望通過新技術、新思路來豐富業務增長點的探索顯得迫切而有必要。所以在渠道拓展方面對新技術的嗅探、新產品的孵化、新的對外合作模式的創新等,都是一些具體的方式;在技術方面進行探索,最大化的通過技術的變革來創新業務模式、昇華服務質量,比如:

建設並非因為要建設而建設,建設是為了更好的解決需求、完成目標,而平台的不斷演進可以更好的服務現有需求並開創新的可能。

對大資料平台而言,資料的抽取、儲存、加工、管理、開放運營等是大資料的核心能力,資料開發平台等系統的投產極大程度降低了資料的加工、使用門檻,滿足了基本的資料研發需要,但是在元資料管理、資料研發規範性、資料質量把關、安全審計等治理方面仍然存在較大的改進空間。通過更接下來的平台建設進一步提公升易用性、提公升資料穩定性、提高資料質量和資料安全、增強資料排程能力,進而在資料融合加工基礎上進一步的完善資料治理體系,從而實現更好的資料開放共享,以便更快捷的支撐應用系統的建設和成長顯得尤為重要。

資料能說話、資料助決策。大企業中對資料的訴求和使用好比家庭購物買菜,菜市場和超市都可以買菜,但是菜市場具有占地面積大、對周圍交通及環境影響大的特點,而超市則顯得比較靈活和便捷,能夠更好的適應城區。目前很多業務場景下對資料的使用好像在菜市場買菜,需要接觸每個攤位主(資料負責人/提數人員/……),分別溝通來買菜(提數)並逐個結算。而超市則提供了分割槽、分類、分級的產品**,並實現了自由選擇、統一結算的服務,並且超市往往對顧客隔離了材料加工、包裝(資料加工)的過程,更好的購物環境、更優質的服務、更快捷的體驗。所以建設好我們的資料超市不但是對我們資料的梳理和分類,實現資料運營也將會把我們的資料服務能力提公升到乙個新的台階,給資料使用人員一種更好的使用體驗。

「眾人拾柴火焰高」,以乙個企業內部的資料積累來進行使用者行為屬性判斷、標籤加工等事情還是略顯薄弱,如果能夠實現通過獲取外部資料、三方行為資料的使用,通過全天候、多維度的行為分析來最終判定乙個主體的屬性和標籤,將會有利於更好的對主體把控。通過資料上雲,實現行業雲內資料的共享,實現本地資料與雲上資料的聯邦。外部產品矩陣、外部資料聯邦等等,目的就是對內部提供更加優質的服務,實現更多、更好的產品孵化、更精確的客戶定位、賦能業務、最終實現更好的實現數位化轉型。

中原銀行經過4年的大資料平台建設,已經從原始的人海戰術實現了大資料系統的平台化,這很大程度上要歸功於我們在大資料平台建設的輕裝上陣和極有魄力的領導力,回顧過去展望未來,大資料平台的演進之路大致如下:

在2023年末2021伊始的時間節點,結合業界發展趨勢,我認為下一代的大資料平台發展將會形**工智慧型和大資料的雙引擎局面,對人工智慧而言則是需要探索與大資料的融合,於大資料而言,除了與人工智慧的融合外也要快速實現新一代的資料儲存、計算、使用等方面的變革,基於這個想法大資料平台建設架構大致如下:

最後,希望大資料平台每年都有更好的呈現,每一次陣痛的變革都是為了堅守最原始的初心。

資料平台建設

很多時候資料處理都是在乙個無模式或者非結構化或者半結構化的資料集上進行處理 批量採集和實時採集 可以說,幾乎每家稍微有點規模的資料平台團隊,都會有自己的排程系統實現方案,要不然自研,要不然在開源的基礎上進行一些封裝和改造 比如很多公司採取了封裝oozie的方式 資源排程系統,它的工作重點是底層物理資...

大資料平台 探索資料價值

最近很多廠商都推出了自己的大資料產品。但我們還是要問兩個問題,你怎麼定義大資料?你認為大資料平台關鍵的元素是什麼?廠商和專家一般都會告訴我們最重要的是要記住大資料所包含的東西遠遠多於所謂的大型資料儲存。大資料通常也包含其快速建立和多種格式,像非格式化的文字,web或者數字 等。正如ibm和infor...

大資料平台 整體建設思想

建設指導方針 建設思路 缺點 通用元件建設,組合支援業務的方式 缺點 打通上下游系統和業務流程的能力 服務口碑取決於服務最差的環節 服務越多支援的代價越高1.乙個系統服務難免會有 bug,也總會有不夠靈活的地方 提供的服務越多 越全面,日常維護的代價就越高 需求響應要疾如閃電,功能服務要天長地久1....