一文看懂大資料領域的六年巨變

今年，作者打算將分析data eng的歸檔內容（這些歸檔可追溯到2023年1月）作為其個人專案，來析過去6年中的大資料的趨勢和變化。

為此，作者抓取並清理了290多期內容（使用了python爬蟲），保留了與技術、新聞和發布公告相關的文章片段。接下來，他對文章片段進行了一些基本的自然語言處理並應用了一些基本的過濾，最後生成關鍵字和下下列表。

從2023年spark開始接管hadoop的那一刻起，hadoop就開始穩步下滑。

kafka成為所有大資料技術棧的主要構建塊。

kubernestes的崛起，儘管data eng weekly並不十分關注devops，但卻也見證了從2023年開始圍繞kubernetes在各個領域的全面炒作。

所有原始的hadoop專案都在這裡：hdfs、yarn、mr、pig……以及兩大主流發行版cdh和hdp，除此之外別無其他！

hadoop總體上延續了它的統治地位，但spark在這一年推出的第乙個版本成為2023年最熱門的話題！

spark取代hadoop的一名位的置，kafka進入前三。大多數舊專案（hdfs、yarn、mr、pig……）都沒有進入前十。

2023年是流式處理年，kafka取代了hadoop第二名的位置，spark（流式處理）繼續佔據主導地位。

與2023年的陣容相同，只是加入了flink。

kubernetes首次亮相，我們回到了基礎，試圖找出如何管理（k8s）、排程（airflow）和執行（spark、kafka、儲存……）我們的流。

現在對2023年給出任何結論還為時過早，但看起來k8s將在2023年成為主流！

英文原文：

今年，作者打算將分析data eng的歸檔內容這些歸檔可追溯到2013年1月作為其個人專案，來析過去6年中的大資料的趨勢和變化。為此，作者抓取並清理了290多期內容使用了python爬蟲保留了與技術新聞和發布公告相關的文章片段。接下來，他對文章片段進行了一些基本的自然語言處理並應用了一些基...