玩轉工業大資料,你所需要了解的Kafka

2021-09-25 14:27:23 字數 1063 閱讀 8763

無論是德國工業4.0、美國工業網際網路還是《中國製造2025》,各國製造業創新戰略的實施基礎都是工業大資料的蒐集和特徵分析,及以此為未來製造系統搭建的無憂環境。以工業大資料為核心構建的智慧型化體系會成為支撐智慧型製造和工業網際網路的核心動力,圍繞工業大資料展開的各類技術也在不斷湧現。

在《工業大資料處理領域的「網紅」——apache spark》一文中,我們分享了新一代輕量級大資料快速處理平台。今天,我們將繼續分享另乙個玩轉工業大資料的技術----kafka。

kafka是乙個高吞吐的、分布式的、基於發布/訂閱的分布式流處理平台,它可以像訊息系統一樣讀寫資料流,在實時業務的場景中寫可靠的流處理應用,並且能安全地儲存資料流到分布式、多副本、容錯的集群中,目前被廣泛應用在雲計算和大資料處理上。

kafka可高效的採集以及使用資料,以此減輕各個業務系統的壓力。隨著kafka應用的不斷深入,越來越多的企業正使用這一便捷的工具來實現大資料的布局。

kafka的優勢特性在於:

高效處理資料,承載海量負載;

支援多種語言,可儲存任何型別和格式的資料;

是乙個高效能和可伸縮的系統;

可用於實時時間處理和批處理。

為了更好的介紹kafka在實際生產環境下的應用,下面我們以實際專案為例,給大家分享格創東智利用kafka設計出的乙個非生產資料採集平台。

專案中,該工廠有一項業務需要採集非生產相關的資料。資料每8毫秒採集一次,該工廠有幾百台機械臂,因而每天產生的日誌檔案非常大,給資料庫帶來十分大的壓力。

格創東智根據其實際需求,給出的解決方案如圖所示:裝置層生成機械臂執行日誌檔案,邊緣層讀取並解析日誌檔案,將資料傳送到採集層kafka中。採集應用程式介面從kafka中拉取資料,後根據業務需要自行決定將資料儲存到儲存層hbase中、oracle或快取中。最後通過分布式管理協調器管理kafka服務與採集api的動態加入與離開、觸發負載均衡、維護消費關係。

格創東智通過搭建平台,利用kafka高吞吐量的特性,滿足該工廠海量毫秒級資料的採集和處理,穩定高效的將資料更新至對應的資料庫,為其製造系統搭建無憂環境。

關於大資料獲客你需要了解的知識

大資料實時計算階段需掌握的技術有 mahout spark storm。1 spark spark是專為大規模資料處理而設計的快速通用的計算引擎,其提供了乙個全面 統一的框架用於管理各種不同性質的資料集和資料來源的大資料處理的需求,大資料開發需掌握spark基礎 sparkjob spark rdd...

大資料平台需要了解的知識點

ngix協議層做阻斷應射處理 springboot 容器 mvc框架 springsecurity 認證和授權框架 mybatis orm框架 swagger ui 文件生產工具 hibernator validator 驗證框架 elasticsearch 搜尋引擎 rabbitmq 訊息佇列 r...

面對大資料過分渲染宣傳,你需要了解的9件事

面對大資料過分渲染宣傳,你需要了解的9件事 大資料和開放資料不是一回事,但他們有著密切的聯絡 正如我在主題發言稿 未來的大資料將會開放到什麼程度?上寫到的 我們正在關注的大資料一些趨勢和話題與開放資料也有關係。按照這樣的脈絡,就出爐了這篇我在去哥倫布的路上學到的 了解大資料的九件事 在研討會的官網上...