MR程式編寫

做了乙個有關於讀取三張hbase表處理進行統一處理的專案：

list scans = new arraylist<>();
scan scan1 = new scan();
scan1.setattribute(scan.scan_attributes_table_name, "7111".getbytes());
scans.add(scan1);
scan scan2 = new scan();
scan2.setattribute(scan.scan_attributes_table_name, "8111".getbytes());
scans.add(scan2);
scan scan3 = new scan();
scan3.setattribute(scan.scan_attributes_table_name, "9111".getbytes());
scans.add(scan3);

（2）在hbase中不同的表有相同的行健，可以存在相同的列族與列。此時需要篩選資料得到不同的資料，這時候就需要區分度，這次是僥倖，行鍵由時間戳構成易於區分。可以在全域性configure中傳遞資料，使用context.getconfiguration.get()獲取資料，但是在每次執行map（實際上每次讀取hbase表，都是重新執行一次map階段）的時候又會重新獲取configuration，所以獲取的資料又是初始值。

（3）寫入本地檔案，在本地執行mr的時候，在靜態**塊中定義好

conf.set("fs.default.name", "hdfs://localhost:9000")

如果新增這句**，預設的是hdfs檔案系統機hadoop儲存系統，如果不新增的話便是儲存在本地的系統中。但是還沒有研究如果在分布式條件下是什麼情況，還有就是偽分布式條件下的集群執行。

（4）在mr執行的過程中，map階段結束後，進入shuffle階段會進行一次排序，此時如果設定了combine，又會進行一次設定即執行了一次reducer**階段。切記是否需要兩次同時執行。

（5）csv檔案是逗號分隔符檔案（並不侷限於這一種符號，還可以是其他的符號，如分號、tab鍵、引號等），這種檔案可以使用excel檔案進行開啟，在開啟時，首先新建乙個excel檔案，然後資料---本地文字--選擇csv檔案，接下來根據提示進行操作就可以了。

（6）conf在加入引數的時候一定要在job定義之前，因為job的定義是以configuration問引數的。

MR程式編寫

Hadoop實戰四編寫MR程式

MR架構 MR工作流程

MR程式的幾種提交執行模式

MR程式編寫

Hadoop實戰 四 編寫MR程式

MR架構 MR工作流程

MR程式的幾種提交執行模式

相關推薦

Hadoop實戰四編寫MR程式