大資料爭論 批處理與流處理的C位之戰

2021-08-28 13:36:36 字數 1919 閱讀 7073

資料無疑是當今數字經濟中的新貨幣,但要跟上企業資料變化和遞增的業務資訊需求,仍然是非常艱難。這也就解釋了公司將資料從傳統基礎構架中遷移至雲中,以衡量資料驅動決策的原因。這可確保公司寶貴資源——資料——受到監管,值得信任,方便管理和訪問。

雖然企業也認可:基於雲的技術是確保跨企業間的資料管理、資料安全、隱私和流程合規性的關鍵,但關於如何更快地處理資料仍然存在乙個有趣的爭論。那就是批處理與流處理之間的pk。

每種處理方法都有其優缺點,但如何選擇還是依據具體的業務需求。下面會深入**哪些用例需要使用批處理,又有哪些用例需要使用流處理。

批處理和流處理之間有什麼區別?

批次是在特定時間間隔內組合在一起的資料點集合。通常用於此的另乙個術語是資料視窗。流處理,用於處理連續資料,是將大資料轉換為快速資料的關鍵。這兩種模型都很有價值,每種模型都可用於解決不同的用例。他們甚至可以「融合」,可以在資料流中做資料視窗,也就是微批量。

雖然批處理模型需要時間段內收集的一組資料,但流處理需要將資料送入分析工具中,通常以實時微批量方式送入。處理來自傳統架構的大量資料或資料來源時經常使用批處理,而在流中直接處理資料是不可行的。根據定義,批處理資料還需要將批處理需要的所有資料載入成某種型別的儲存、資料庫或檔案系統,然後才進行處理。有時,在開始分析階段之前,it團隊可能會無所事事地等待,直至所有資料載入完成。

流處理也可以用於處理大量資料,但是當您不需要實時分析時,批處理工作效果最佳。由於流處理負責處理運動中的資料並快速提供分析結果,因此它可以用apache spark和apache beam等平台生成近乎即時的結果。

例如,talend最近發布的talend data streams是一款免費的亞馬遜市場應用程式,由apache beam提供支援,可簡化並加速大量資料,攝取各種實時資料。

批處理一定比流處理好嗎?

無論您喜歡批處理還是支援流處理,兩者「融合「時會更好。雖然流處理最適合時間很重要的用例,批處理在收集所有資料時執行良好,但這不代表哪乙個比另乙個好-這實際上取決於您的業務目標。

然而,我們看到試圖利用流處理的公司發生了重大轉變。最近對超過16,000名資料專員的調查顯示,資料科學面臨的最常見挑戰包括髒資料、整體訪問、或資料可用性等各方面。不幸的是,由於資料處於運動狀態,流式傳輸往往會加劇這些挑戰。在「跳槽」至實時的流處理之前,解決這些可訪問性和資料質量問題是關鍵。

當我們與企業討論他們如何收集資料並加速創新時,他們通常回答說:「想要實時的資料」,我們再問:「實時對您意味著什麼?」

商業用例可能會有所不同,但實時取決於事件建立或資料建立相對於處理時間的比例,可能是每小時,每五分鐘或每毫秒。

為什麼選流處理?

公司將實時資料視為遊戲規則改變者。但如果沒有適當的工具,實現這一目標仍然是乙個挑戰,特別是因為企業需要處理遞增的數量、種類和資料型別,它們來自眾多不同資料系統(如社交**)的。在talend,我們看到企業通常希望擁有更靈活的資料處理,以便他們能夠加速創新,並更快地應對競爭威脅。

例如,來自風力渦輪機上的感測器始終開啟著。因此,資料流不間斷地流動。由於沒有資料的啟動或停止,因此典型攝取或處理此資料的批處理方法已過時。這是乙個使用流處理的完美用例。

大資料爭論

很明顯,企業正在將實時分析/流處理的優先順序轉移到實時收集可操作的資訊。雖然過時的工具無法應對分析資料所涉及的速度或規模,但今天的資料庫和流處理應用程式已經準備好應對當今的業務問題。

以下是大資料爭論中的重要內容:僅僅因為你有錘子並不意味著這是工作的正確工具。批處理和流處理是兩種不同的模型,它不是二選一的遊戲,它是關於如何確定哪一種更適合您的用例的判斷。

大資料 批處理與Hadoop

批處理主要操作大容量靜態資料集 有邊界資料 並在計算結束後返回結果。批處理模式中使用的資料集通常符合以下特徵 有界 資料是限的 持久 資料通常儲存在某種持久儲存中 大量 批處理是處理極為海量資料集的唯一方法 批處理非常適合需要訪問全套記錄才能完成的計算工作,例如計算總數以及平均數。但是不適合對處理時...

JDBC 大資料和批處理

目標 把 儲存到資料庫中!在my.ini中新增如下配置!max allowed packet 10485760 blob binary large object 二進位製大物件 位元組資料大物件 clob chractor large object 字元資料大物件 1.什麼是sql當中的大資料 所謂...

gamit資料處理 分布處理與批處理

1.在解算目錄032下,執行 makexp,依次更加提示 輸入工程名 test,軌道 igsf,年份 2013,年積日 032,enter session number 99 enter the l file or apr file name lfile.導航n檔案 2.精密星曆處理 sh sp3f...