流式資料 批式資料 實時資料 歷史資料的區別

2021-08-14 09:15:40 字數 935 閱讀 2095

大資料處理系統可分為批式(batch)大資料流式(streaming)大資料兩類。其中,批式大資料又被稱為歷史大資料,流式大資料又被稱為實時大資料

複雜的批量資料處理(batch data processing),通常的時間跨度在數十分鐘到數小時之間。

基於歷史資料的互動式查詢(interactive query),通常的時間跨度在數十秒到數分鐘之間。

基於實時資料流的資料處理(streaming data processing),通常的時間跨度在數百毫秒到數秒之間。

實時計算,強調的是實時。

比如小明要檢視他去年一年的消費總額度,那麼當小明點下統計按鈕的時候,伺服器集群就在噼里啪啦的趕緊計算了,必須在小明能夠忍耐的時間範圍內得出結果。這種計算的背後實現,一般都是冗餘 + 各種高效能部件在做支撐,演算法也對實時性做了優化,但實時計算並沒有強調用那種演算法,只要能保證高實時性的就行。實時計算與離線計算的最大區別,就是離線計算是人無法忍耐的時間進行計算,因此人不需要等待,把任務丟給計算機後,自己該幹嘛就去幹嘛

流式計算,比實時計算要稍微遲鈍些,但比離線計算又實時的多,而且主要強調的是計算方法。

比如,伺服器端,有乙個值,是記錄小明訂單數量。當小明每買一件東西後,服務端立即發出乙個交易成功的事件,該值接收到這個事件後就立即加1。如果用離線計算的方式來做,估計是在查詢時,才慢騰騰的從低速儲存中,把小明的所有訂單取出來,統計數量。流式計算有點像資料庫領域的觸發器,又有些像事件匯流排、中介軟體之類的計算模式。

1、什麼是流式大資料,處理技術、平台及應用都是什麼?

2、spark streaming:大規模流式資料處理

3、什麼是流式資料訪問?

4、流式計算和實時計算有什麼區別?

資料實時備份

隨著企業對資訊系統的依賴性越來越高,資料庫作為資訊系統的核心擔當著重要的角色。尤其在一些對資料可靠性要求很高的行業如銀行 電信等,如果發生意外停機或資料丟失其損失會十分慘重。資料庫的備份是乙個長期的過程,而恢復只在發生事故後進行,恢復可以看作是備份的逆過程,恢復的程度的好壞很大程度上依賴於備份的情況...

實時資料整合

企業應用整合 面向服務的體系結構 soa 目前應該是乙個很受歡迎的名詞,中介軟體技術人員幾乎到了言必稱soa的程度,資料整合當然也不例外,在oracle openworld2008大會上,就推出了一堆資料整合的專場演講,其中和soa結合最緊密的就是實時資料整合 real time data inte...

遠端實時資料傳送

2006 05 06 00 03 19 摘要 介紹了以微控制器作為下位機採集電力引數資料,並控制數據機自動撥號,與上位機進行遠端實時資料傳送的方法,並給出了硬體電路圖和軟體流程圖。我國中大型石油化工企業大都採用小電流接地系統來供電,電力系統較為龐大。這類系統一般擁有幾座乃至十幾座35kv級的總降壓站...