hadoop基本用法回顧

2021-09-11 05:19:56 字數 1477 閱讀 3403

研一時,跟著老師寫完了乙個大資料專案,現在不怎麼寫了,發現很多東西都忘了,還要從網上找資料,從今天起,開始多寫部落格,每天更新一篇作為記錄

今天覆習hadoop的基本用法:【配置ubuntu啟動環境說明,本人的hadoop ubuntu虛擬機器已經配置好了】(hdfs-site.xml,core-site.xml,mapred-site.xml已經配置好了,本次是設定ubuntu快捷啟動和eclipse遠端連線這兩個操作)

①添置ubuntu啟動hadoop環境變數:檢視首先env一下,看一看當前的環境變數,然後找到etc/profile檔案,加入如下:

export hadoop_home=/usr/local/hadoop/hadoop-2.6.0

export path=:$hadoop_home/sbin:$hadoop_home/bin

注意,加完環境變數後,不想重啟的話,source一下

②啟動hadoop的file system,yarn等如下:

#啟動hadoop的file system

start-dfs.sh

#啟動hadoop的yarn

start-yarn.sh

#檢視hdfs目錄,"/"表示file system的根目錄

hadoop fs -ls /

#新建資料夾"input"

hadoop fs -mkdir /input

#上傳測試檔案

hadoop fs -put test.txt /input

#執行yarn的wordcount,到share目錄下找到hadoop-mapreduce-examples-2.6.0.jar

hadoop jar hadoop-mapreduce-examples-2.6.0.jar wordcount /input /output

#檢視結果,發現是part-r-00000檔案

hadoop fs -ls /output

hadoop fs -cat /output/part-r-00000

#結果如下:

china 1

gem 1

hadoop 1

hello,this 3

in 1

is 3

try 1

#刪除測試檔案和資料夾

#①刪除檔案

hdfs dfs -rm /input/test.txt

#②刪除資料夾output

hadoop fs -rm -r /output

#檢視檔案的行數

hadoop fs -cat /output/flow/part-r-00000|wc -l

#檢視檔案大小

hadoop fs -du /output/flow/part-r-00000

#檢視文字的最後幾行

hadoop fs -cat /output/flow/part-r00000|tail -5

hadoop基本用法回顧(MapFile)

mapfile的實現 mapfile是排序後的sequencefile mapfile訪問檔案時,會首先把index載入到記憶體中,然後在根據index快速定位到檔案所在位置,比起sequencefile要快得多。mapfile寫過程 建立configure物件 獲取到filesystem物件 設定...

hadoop基本用法回顧(api訪問)

今天一開始建立eclipse與虛擬機器訪問時,出現諸多問題,解決後,複習了基本的hadoop檔案操作 測試hdfs,開始讀取配置檔案 before 關閉,after public class testhdfs after public void close throws exception 建立目錄...

委託的基本用法(回顧)

using system using system.collections.generic using system.linq using system.text namespace aaa food4 delegate string food food4 delegate string food ...