hadoop實戰隨筆 0712

2021-08-08 03:54:53 字數 700 閱讀 2243

org.apache.hadoop.conf: 定義了系統引數的配置檔案處理api。

org.apache.hadoop.fs: 定義了抽象的檔案系統api

org.apache.hadoop.dfs: hadoop分布式檔案系統(hdfs)模組的實現

org.apache.hadoop.mapred: hadoop分布式計算系統(mapreduce)模組的實現,包括任務的分發排程等

org.apache.hadoop.ipc: 用於網路伺服器和客服端的工具,封裝了網路一部i/o的基礎模組

org.apache.hadoop.io

: 定義了通用的i/o api,用於針對網路、資料庫、檔案等資料物件進行讀寫操作等。

可以手動新增配置檔案(也可以通過**新增配置檔案?)。

當存在多個資源(配置檔案)時,可從多個資源中新增屬性,當不同資源中新增了相同屬性,但有不同屬性值時,可遵循這樣的原則:後新增進來的屬性取值覆蓋掉前面新增進來的屬性取值。

但有乙個特例,被標記為final的屬性不能被後面定義的屬性覆蓋,重寫標記為final的屬性通常情況下會報告配置錯誤。

hadoop預設使用兩個源進行配置,並按照順序載入core-default.xml和core-site.xml。在實際應用中可能會新增其他的源,應按照它們新增的順序進行載入。其中,core-default.xml定系統預設的屬性,core-site.xml定義在特定的地方重寫。

hadoop實戰隨筆 0720

hdfs命令 distcp 一般用於在兩個hdfs集群間傳遞資料的情況。namenode format 格式化dfs檔案系統 secondarynamenode 執行dfs的secondarynamenode程序 namenode 執行dfs的namenode程序 datanode 執行dfs的da...

Hadoop實戰應用

1 雲盤儲存系統通過hdfs實現 2 hadoop三大發行版本 1 apache 基礎版本,實際企業使用比較少 2 cloudera cdh cloudera的hadoop發行版 clouderamanager 集群軟體分發及管理監控 3 hortonworks hdp hortonworks da...

hadoop實戰筆記 170816

在啟動的時候,每台hregion伺服器都會檢查自己的hlog檔案 hlog是磁碟上的記錄檔案,它記錄著所有的更新操作 看看最近一次執行flushcache之後有沒有新的更新寫入操作。如果沒有更新,就表示所有的資料都已經更新到檔案中了 如果有更新,伺服器就會先把這些更新寫入快取記憶體,然後呼叫fuls...