基於HDFS的實時計算和wordcount程式

基於hdfs檔案的實時計算，其實就是，監控乙個hdfs目錄，只要其中有新檔案出現，就實時處理。相當於處理實時的檔案流。

streamingcontext.filestream(datadirectory)

streamingcontext.filestream[keyclass, valueclass, inputformatclass](datadirectory)

spark streaming會監視指定的hdfs目錄，並且處理出現在目錄中的檔案。要注意的是，所有放入hdfs目錄中的檔案，都必須有相同的格式；必須使用移動或者重新命名的方式，將檔案移入目錄；一旦處理之後，檔案的內容即使改變，也不會再處理了；基於hdfs檔案的資料來源是沒有receiver的，因此不會占用乙個cpu core。

案例：監控hdfs上/testdata/hadoop目錄下當有新檔案上傳就會統計出結果

object hdfswordcountdemo 
} //shell指令碼**
/home/kitty/opt/spark/bin/spark-submit \
--class day18.hdfswordcountdemo \
--master spark://hadoop01:7077 \
--driver-memory 512m \
--executor-memory 512m \
--total-executor-cores 2 \
/home/kitty/mytmp/scala-1.0-snapshot.jar

基於HBase做Storm 實時計算指標儲存

基於hbase做storm 實時計算指標儲存舉個例子，假設我們有客戶 10w，計算指標假設 100 個，5 個 isp，30 個地域，這樣就有億級以上的 key 了，我們還要統計分鐘級別，小時級別，天級別，月級別。所以寫入量和儲存量都不小。如果採用 redis memcached 寫入速度是沒有問...

基於HBase做Storm 實時計算指標儲存

基於 hbase 做 storm 實時計算指標儲存 hbase 實時指標儲存是我入職樂視雲後對原有的實時系統改造的 hbase 儲存設計 storm 結果如何儲存到 hbase hbase 寫入效能優化與傳統方案 redis mysql 對比樂視雲內部用 storm 做 cdn，點播，直播流量的...

離線計算與實時計算的對比

就是在計算開始前已知所有輸入資料，輸入資料不會產生變化，一般計算量級較大，計算時間也較長。例如今天早上一點，把昨天累積的日誌，計算出所需結果。最經典的就是hadoop的mapreduce方式一般是根據前一日的資料生成報表，雖然統計指標報表繁多，但是對時效性不敏感。從技術操作的角度，這部分屬於批處...

基於HDFS的實時計算和wordcount程式

基於HBase做Storm 實時計算指標儲存

基於HBase做Storm 實時計算指標儲存

離線計算與實時計算的對比

相關推薦