基於HDFS的實時計算和wordcount程式

2021-08-03 20:22:11 字數 772 閱讀 7618

基於hdfs檔案的實時計算,其實就是,監控乙個hdfs目錄,只要其中有新檔案出現,就實時處理。相當於處理實時的檔案流。

streamingcontext.filestream(datadirectory)

streamingcontext.filestream[keyclass, valueclass, inputformatclass](datadirectory)

spark streaming會監視指定的hdfs目錄,並且處理出現在目錄中的檔案。要注意的是,所有放入hdfs目錄中的檔案,都必須有相同的格式;必須使用移動或者重新命名的方式,將檔案移入目錄;一旦處理之後,檔案的內容即使改變,也不會再處理了;基於hdfs檔案的資料來源是沒有receiver的,因此不會占用乙個cpu core。

案例:監控hdfs上/testdata/hadoop目錄下當有新檔案上傳就會統計出結果

object hdfswordcountdemo 

} //shell指令碼**

/home/kitty/opt/spark/bin/spark-submit \

--class day18.hdfswordcountdemo \

--master spark://hadoop01:7077 \

--driver-memory 512m \

--executor-memory 512m \

--total-executor-cores 2 \

/home/kitty/mytmp/scala-1.0-snapshot.jar

基於HBase做Storm 實時計算指標儲存

基於hbase做storm 實時計算指標儲存 舉個例子,假設我們有客戶 10w,計算指標假設 100 個,5 個 isp,30 個地域,這樣就有億級以上的 key 了,我們還要統計分鐘級別,小時級別,天級別,月級別。所以寫入量和儲存量都不小。如果採用 redis memcached 寫入速度是沒有問...

基於HBase做Storm 實時計算指標儲存

基於 hbase 做 storm 實時計算指標儲存 hbase 實時指標儲存是我入職樂視雲後對原有的實時系統改造的 hbase 儲存設計 storm 結果如何儲存到 hbase hbase 寫入效能優化 與傳統方案 redis mysql 對比 樂視雲內部用 storm 做 cdn,點播,直播流量的...

離線計算與實時計算的對比

就是在計算開始前已知所有輸入資料,輸入資料不會產生變化,一般計算量級較大,計算時間也較長。例如今天早上一點,把昨天累積的日誌,計算出所需結果。最經典的就是hadoop的mapreduce方式 一般是根據前一日的資料生成報表,雖然統計指標 報表繁多,但是對時效性不敏感。從技術操作的角度,這部分屬於批處...