一起學Hadoop 檔案的上傳 分發與打包

2021-08-28 11:18:10 字數 817 閱讀 4804

如果我們想把檔案上傳到hadoop集群中,使用put命令即可。下面的語句是將本地檔案上傳到hadoop集群的/目錄下。

hadoop fs -put fruit.txt /

下面介紹通過指令碼將檔案分發到hadoop集群的方法。因為hadoop本身就帶有檔案自動分發的功能,我們只需在啟動hadoop作業的指令碼檔案中做相應的配置即可。可選的配置項有三個,每個適用的場景都不一樣:

-file:將本地檔案分發到計算節點。

-cachefile:將hdfs中已經存在的檔案傳送到需要使用該檔案的節點。

-cachearchive:將hdfs中已經存在的壓縮檔案分發到相應的計算節點並解壓。

簡單介紹三個選項的用法。

-cachefile用法:在指令碼檔案中新增**:-cachefile hdfs://hadoop-master:8020/fruit.txt#fruit。「#」是給要分發的檔案起別名,在mapreduce程式中直接使用該別名就可訪問該檔案。

-cachearchive用法:在指令碼檔案中新增**:-cachearchive 「hdfs://hadoop-master:8020/fruit.tar.gz#fruit.gz」。將hdfs中的fruit.tar.gz壓縮檔案分發到計算節點。同-cachefile的用法一樣,#也是給要分發的壓縮檔案起別名,然後在mapreduce中通過別名就可以訪問到該壓縮檔案。-cachearchive會將fruit.tar.gz壓縮檔案解壓成乙個fruit.tar.gz的目錄。

-file適合在檔案比較小(10m以內)的場景下使用。

-cachefile和-cachearchive適合在檔案比較大(檔案大小在g以上)的場景下使用。

一起學演算法

我堅信,機會永遠屬於有準備的人,其羨慕他人的成功,不如從此刻起,積累足夠多的知識和面試經驗,為將來進入更好的公司做好充分的準備!演算法崗是現在最火的崗位,這個崗位要求對oi演算法非常熟悉。常見的oi演算法有 模擬 字首和 差分 高精度計算 排序 貪心 分治 二分查詢 廣度搜尋 深度搜尋 字串相關演算...

跟我一起學 Hadoop 之 經典場景分析

hive分割槽表陷阱 不load資料到hive,而是put資料到hdfs分割槽目錄下,hive查不到資料 解決方法 msck repair table table name 答案 分割槽表是hdfs上以資料夾的形式存在,為了提高查詢效率。答案 crontab e或者hue提交 sqoop增量匯入並按...

一起學Makefile(一)

make和makefile makefile檔案幫助我們記錄了整個專案工程的所有需要編譯的檔案列表,這樣我們在編譯時僅需要輸入簡單的make命令就能編譯出我們期望的結果。makefile檔案反映了整個專案中各個模組的依賴關係,這樣我們改動了某些原始檔以後,僅需簡單的輸入make命令,make工具就會...