HDFS自開發分布式資料採集系統 學習總結篇

2021-08-19 21:47:00 字數 416 閱讀 8965

在業務系統的伺服器上,業務程式會不斷生成業務日誌(比如**的頁面訪問日誌)。

業務日誌是用log4j生成的,會不斷地切出日誌檔案。

需要定期(比如每小時)從業務伺服器上的日誌目錄中,探測需要採集的日誌檔案(access.log不能採),發往hdfs。

注意點:業務伺服器可能有多台(hdfs上的檔名不能直接用日誌伺服器上的檔名)。

當天採集到的日誌要放在hdfs的當天目錄中。

採集完成的日誌檔案,需要移動到到日誌伺服器的乙個備份目錄中。

定期檢查(一小時檢查一次)備份目錄,將備份時長超出24小時的日誌檔案清除。

專案的一些學習總結和心得建議

規範注意6:每乙個專案,每乙個業務,都要先寫出他的流程,再一步步寫**,然後再慢慢的考慮其他的異常情況,增加**的健壯性。

分布式儲存 HDFS原理

短時間內快速產生的海量的多種多樣的有價值的資料。1 分布式儲存 2 分布式計算 1 分布式批處理 當資料積累一定的時間後 假設乙個月 進行統一的處理。2 分布式流處理分布式流處理是乙個實時的處理。即資料生成後立即處理。3 機器學習 凡是 類的都是機器學習。分布式儲存 系統學習分布式儲存 過程 hdf...

HDFS 分布式儲存基石

hdfs是hadoop 分布式檔案系統。namenode與datanode 集群結構 hdfs讀取寫入過程 通過網路拓撲圖判斷距離 namenode深入 作用 儲存結構 啟動過程 開啟安全模式 不能執行資料修改操作 載入fsimage 逐個執行所有edits檔案中的每一條操作將操作合併到fsimag...

HDFS分布式系統基礎

1.資料塊 資料塊是hdfs預設的最基本儲存單位,預設塊大小是64mb,hdfs中的檔案是分成資料塊儲存的,如果乙個檔案小於乙個資料塊大小,並不占用整個塊的儲存空間,檔案是多大就佔多少空間。2.元資料節點 namenode namenode的職責是管理檔案系統的命名空間,所有的檔案和資料夾元資料儲存...