hadoop學習問題總結

2021-06-05 02:46:34 字數 2857 閱讀 4300

1)找到問題的原因

sequencefile時連線不上錯誤,一直以為是集群沒有搭建成功,執行其他程式卻沒有問題,確定是程式本身的問題。

2)hadoop streaming  babel不能處理連續的兩個由sequencefile生成的檔案,一直不知道是什麼原因,將sequence用cat匯出時,又上網搜發現是babel不能處理在分子開始處多乙個空行的檔案。

3)hadoop的streaming可以自己生成,可見hadoop的可擴充套件性有多大,其他問題也可以自己定製hadoop

4)單變數檢查法(cat~~babel -isdf -ofpt  -xh -xf fp4')

okkkkkkkk!!!!!!!!!!!!!!!!!!!!!!

5) 6)

mapreduce 處理資料是 一行呼叫map程式一次,而 streaming是map迴圈呼叫資料 。。。 要不就是babel有儲存的功能

測試:

#!/usr/bin/env python

import sys

i=0for line in sys.stdin:

#if line.strip()=="> ":

if line.strip()=="> ":

#print line.strip()

i+=1;

print i

streaming執行後:

輸出為: 12

3...

而不是1,1,1

所以肯定是乙個map一直執行,而不是一行呼叫一次

7)每一步都有目的,別試來試去。可能有時候就是需要試來拭去。特別是自己不熟悉的知識

hadoop fs -ls 萬用字元的缺陷

mjiang@syvenus:~/program/eclipse/ccms_stat$ hadoop fs -ls  /user/mjiang/

found 4 items

drwxrwxrwx   - mjiang supergroup          0 2012-08-06 15:00 /user/mjiang/.trash

drwxrwxrwx   - mjiang supergroup          0 2012-08-06 14:55 /user/mjiang/hive

drwxrwxrwx   - mjiang supergroup          0 2012-08-03 17:40 /user/mjiang/mjiang

drwxrwxrwx   - mjiang supergroup          0 2012-08-06 13:36 /user/mjiang/test

mjiang@syvenus:~/program/eclipse/ccms_stat$ hadoop fs -ls  /user/mjiang/te*

mjiang@syvenus:~/program/eclipse/ccms_stat$ 

mjiang@syvenus:~/program/eclipse/ccms_stat$ hls  /user/mjiang/mjiang

found 1 items

drwxrwxrwx   - mjiang supergroup          0 2012-08-03 17:40 /user/mjiang/mjiang/test4

mjiang@syvenus:~/program/eclipse/ccms_stat$ hls  /user/mjiang/mjiang/te*

found 8 items

-rw-rw-rw-   3 mjiang supergroup          0 2012-08-03 17:40 /user/mjiang/mjiang/test4/_success

drwxrwxrwx   - mjiang supergroup          0 2012-08-03 17:36 /user/mjiang/mjiang/test4/_logs

-rw-rw-rw-   3 mjiang supergroup         14 2012-08-03 17:36 /user/mjiang/mjiang/test4/part-m-00000.bz2

-rw-rw-rw-   3 mjiang supergroup   75007289 2012-08-03 17:36 /user/mjiang/mjiang/test4/part-m-00001.bz2

-rw-rw-rw-   3 mjiang supergroup   19696013 2012-08-03 17:36 /user/mjiang/mjiang/test4/part-m-00002.bz2

-rw-rw-rw-   3 mjiang supergroup   28549784 2012-08-03 17:36 /user/mjiang/mjiang/test4/part-m-00003.bz2

-rw-rw-rw-   3 mjiang supergroup   16578129 2012-08-03 17:36 /user/mjiang/mjiang/test4/part-m-00004.bz2

-rw-rw-rw-   3 mjiang supergroup        292 2012-08-03 17:36 /user/mjiang/mjiang/test4/part-m-00005.bz2

貌似只有最後一層才可用

8)map只有乙個時是不出具體的進展資訊的,好幾個後就出了具體的進展資訊了

2/07/31 11:05:25 info mapred.jobclient:  map 50% reduce 0%

12/07/31 11:05:37 info mapred.jobclient:  map 66% reduce 0%

12/07/31 11:06:10 info mapred.jobclient:  map 83% reduce 0%

hadoop學習總結

1 sbin目錄 存放啟動或停止hadoop相關服務的指令碼 2 bin目錄 存放對hadoop相關服務 hdfs,yarn 進行操作的指令碼 3 etc目錄 hadoop的配置檔案目錄,存放hadoop的配置檔案 4 share目錄 存放hadoop的依賴jar包和文件,文件可以被刪除掉 5 li...

Hadoop學習總結

hadoop定義 hadoop元件 分布式檔案系統hdfs 維護hdfs檔案系統,是檔案系統的主節點,不儲存檔案資料 記錄了客戶端的操作日誌 edits 儲存了hdfs的最新狀態 edits檔案儲存了自最後一次檢查點之前的對hdfs的操作資訊,比如說新增檔案,儲存檔案,刪除目錄等資訊。儲存目錄為 t...

hadoop小問題總結

重要命令 向hdfs上傳檔案命令 hadoop 2.7.1目錄下 bin hdfs dfs put wcinput wc.input bin hdfs dfs put opt software hadoop 2.7.2.tar.gz 重啟sshd service sshd restart 步驟二 編...