hadoop中的Jobhistory歷史伺服器

2021-09-07 17:10:44 字數 1586 閱讀 1644

1.  啟動指令碼

mr-jobhistory-daemon.sh start historyserver

2. 配置說明

jobhistory用於查詢每個job執行完以後的歷史日誌資訊,是作為一台單獨的伺服器執行的。可以在namenode或者datanode上的任意一台啟動即可。

預設的配置如下,但是需要手工修改為我們指定的那台伺服器。

<

property

>

<

name

>mapreduce.jobhistory.address

name

>

<

value

>0.0.0.0:10020

value

>

property

>

<

property

>

<

name

name

>

<

value

>0.0.0.0:19888

value

>

property

>

引數配置在mapred-site.xml檔案中。如果將history伺服器配置在namenode2中,修改如下:

<

property

>

<

name

>mapreduce.jobhistory.address

name

>

<

value

>dwtest-name2:10020

value

>

property

>

<

property

>

<

name

name

>

<

value

>dwtest-name2:19888

value

>

property

>

3.日誌儲存過程

jobhistory server來實現web檢視作業的歷史運**況,日誌儲存的位置是在hdfs檔案系統中

當job作業在執行中時,可以直接通過web檢視作業的執行狀況, 此時的記錄儲存在$ 路徑下。

當job作業執行完成後,會將$目錄下的日誌檔案移動到歷史資料夾$中。

$ 和 $ 在mapred-site.xml中配置。

如果沒有啟動jobhistory程序,就無法檢視歷史執行的明細資訊。

當由於在啟動hdfs和yarn程序之後,jobhistoryserver程序並沒有啟動,需要手動啟動。

注意: jobhistory是乙個單一的歷史伺服器,不需要在集群中啟動多個服務。使用時,需要在配置檔案中指定乙個伺服器,然後啟動historyserver服務。

hadoop中的檔案壓縮

1 減少磁碟的儲存空間 2 減少磁碟io和網路io 3 加快資料傳輸速度 磁碟和網路 如果小檔案多明顯檔案傳輸會明顯降低 1 考慮檔案的壓縮效率 壓縮快慢 2 考慮檔案的壓縮比 解壓快慢 第一點好理解,壓縮的快肯定好 第二點是壓縮比,舉例現在有乙個10g的檔案,一種壓縮演算法能把他壓縮成1g,其他壓...

Hadoop中的jobhistory配置與啟動停止

hadoop中的jobhistory配置與啟動停止 jobhistory配置 在yarn site.xml中新增 開啟日誌聚合 yarn.log aggregation enable true 在mapred site.xml中新增 設定jobhistoryserver 沒有配置的話 history...

SequenceFile在Hadoop中使用

概念 sequencefile是乙個由二進位制序列化過的key value的位元組流組成的文字儲存檔案,它可以在map reduce過程中的input output 的format時被使用。在map reduce過程中,map處理檔案的臨時輸出就是使用sequencefile處理過的。所以一般的se...