資料採集層

2021-10-21 11:59:23 字數 1696 閱讀 5960

普通的實時計算優先考慮時效性,所以從資料來源採集經過實時計算直接得到結果。如此做時效性更好,但是弊端是由於計算過程中的中間結果沒有沉澱下來,所以當面對大量實時需求的時候,計算的復用性較差,開發成本隨著需求增加直線上公升。

實時數倉基於一定的資料倉儲理念,對資料處理流程進行規劃、分層,目的是提高資料的復用性。

離線計算:就是在計算開始前已知所有輸入資料,輸入資料不會產生變化,一般計算量級較大,計算時間也較長。例如今天早上一點,把昨天累積的日誌,計算出所需結果。最經典的就是 mr/spark/hive;

一般是根據前一日的資料生成報表,雖然統計指標、報表繁多,但是對時效性不敏感。從技術操作的角度,這部分屬於批處理的操作。即根據確定範圍的資料一次性計算。

實時計算:輸入資料是可以以序列化的方式乙個個輸入並進行處理的,也就是說在開始的時候並不需要知道所有的輸入資料。與離線計算相比,執行時間短,計算量級相對較小。強調計算過程的時間要短,即所查當下給出結果。

主要側重於對當日資料的實時監控,通常業務邏輯相對離線需求簡單一下,統計指標也少一些,但是更注重資料的時效性,以及使用者的互動性。從技術操作的角度,這部分屬於流處理的操作。根據資料源源不斷地到達進行實時的運算。

對於日常企業、**的運營管理如果僅僅依靠離線計算,資料的時效性往往無法滿足。通過實時計算獲得當日、分鐘級、秒級甚至亞秒的資料更加便於企業對業務進行快速反應與調整。

所以實時計算結果往往要與離線資料進行合併或者對比展示在 bi 或者統計平台中

資料大屏,相對於 bi 工具或者資料分析平台是更加直觀的資料視覺化方式。尤其是一些大促活動,已經成為必備的一種營銷手段。

另外還有一些特殊行業,比如交通、電信的行業,那麼大屏監控幾乎是必備的監控手段。

經過大資料實時計算得到的一些風控預警、營銷資訊提示,能夠快速讓風控或營銷部分得到資訊,以便採取各種應對。

比如,使用者在電商、金融平台中正在進行一些非法或欺詐類操作,那麼大資料實時計算可以快速的將情況篩選出來傳送風控部門進行處理,甚至自動遮蔽。 或者檢測到使用者的行為對於某些商品具有較強的購買意願,那麼可以把這些「商機」推送給客服部門,讓客服進行主動的跟進。

C 資料採集

這裡指的是,你發現任意乙個頁面,沒有rss,沒有資料介面,只是通過瀏覽器能夠訪問,把上面的資料用程式拿過來用。基本原理 1,通過http請求頁面,返回字串的 3,有需要的可以把資料儲存到自己的資料庫中,也報過處理等。4,把提取出來的資料生成自己需要的頁面。乙個偷取頁面的過程就這樣完成了。下面是兩種第...

資料採集(4)

這個裡面之所以採用了兩個方式獲取 是為了解決 重新整理頁面,原始碼不變的問題。採用反射是為了解決不同的資料集的處理方式不一致的問題。其實這裡可以不這樣做,做成返回乙個 就行了,但是專案畢竟特殊,而且不同資料來源要寫入到不同的資料表。沒辦法了。看乙個反射的類吧 public class shenjia...

php資料採集

實測單次採集了一萬條鏈結,並儲存。主要用於測試,請勿它用。注釋寫的很清楚,就不贅述了 如果連線到遠地主機成功,則傳送請求 if this connect else 如果響應頭部存在重定向,則對重定向傳送請求 if this redirect if this roll link else else e...