大資料比用的元件與命令

2021-10-09 19:37:08 字數 1826 閱讀 2189

根據現在所在專案,大資料涉及的技術有: hadoop hive kafka hbase spark flink

一、hadoop 常用命令

hdfs檔案的相關操作主要使用hadoop fs、hadoop dfs、hdfs dfs 命令,以下對最常用的相關命令進行簡要說明。

hadoop fs -ls 顯示當前目錄結構,-ls -r 遞迴顯示目錄結構

hadoop fs -mkdir 建立目錄

hadoop fs -rm 刪除檔案,-rm -r 遞迴刪除目錄和檔案

hadoop fs -put [localsrc] [dst] 從本地載入檔案到hdfs

hadoop fs -get [dst] [localsrc] 從hdfs匯出檔案到本地

hadoop fs - copyfromlocal [localsrc] [dst] 從本地載入檔案到hdfs,與put一致

hadoop fs -copytolocal [dst] [localsrc] 從hdfs匯出檔案到本地,與get一致

hadoop fs -test -e 檢測目錄和檔案是否存在,存在返回值$?為0,不存在返回1

hadoop fs -text 檢視檔案內容

hadoop fs -du 統計目錄下各檔案大小,單位位元組。-du -s 彙總目錄下檔案大小,-du -h 顯示單位

hadoop fs -tail 顯示檔案末尾

hadoop fs -cp [src] [dst] 從源目錄複製檔案到目標目錄

hadoop fs -mv [src] [dst] 從源目錄移動檔案到目標目錄

三、kafka 常用命令

建立topic

kafka-topics.sh --zookeeper 10.10.10.10:2007 --create --topic test --replication-factor 1 --partitions 3

刪除topic

kafka-topics.sh --zookeeper 10.10.10.10:2007 --delete --topic test

檢視topic

kafka-topics.sh --zookeeper 10.10.10.10:2007 --list

檢視消費的訊息

kafka-console-consumer.sh --zookeeper 10.10.10.10:2007 --from-beginning --topic test

指定group消費資訊

kafka-console-consumer.sh --zookeeper10.10.10.10:2007 --from-beginning --group test_group --topic test

模擬生產訊息

kafka-console-producer.sh --broker-list 10.10.10.10:2007 --topic my-topic

四、常用hbase命令

建立表create 『ns2:user』,『info』,『score』

插入資料

put 『ns2:user』,『1』,『info:name』,『xiaojian』

檢視全部的記錄

scan 『ns2:user』

查一行get 『ns2:user』,『2』

查一行的一列(cell單元)

get 『ns2:user』,『2』,『info:name』

查詢表的總記錄數

count 『ns2:user』

刪除記錄

delete 『ns2:user』,『1』,『info:name』

刪除表disable 『ns2:user』

drop 'ns2:user

大資料場景的元件選擇

批處理場景該場景對磁碟吞吐和網路吞吐要求高,處理的資料量也大,但對資料處理的實時性要求不高,您可選用 mapreduce pig spark 元件。該場景對記憶體要求不高,選型時您需要重點關注大作業對 cpu 和記憶體的需求,以及 shuffle 對網路的需求。ad hoc 查詢資料科學家或資料分析...

大資料系列的預設埠 大資料平台常用元件埠號

hadoop 50070 hdfs web ui埠 8020 高可用的hdfs rpc埠 9000 非高可用的hdfs rpc埠 8088 yarn 的web ui 介面 8485 journalnode 的rpc埠 8019 zkfc埠 19888 jobhistory web ui埠 zooke...

大資料學習之Linux 05grep命令用法

e 開啟擴充套件 extend 的正規表示式。i 忽略大小寫 ignore case v 取反 invert 列印沒有匹配的行 n 顯示匹配的行號 w 被匹配的文字只能是單詞,而不能是單詞中的某一部分 c 顯示有多少行被匹配到了 cv 顯示有多少行沒有被匹配到 o 只顯示被模式匹配到的字串。colo...