Hadoop生態系統命令合集(更新中 )

2021-07-16 09:57:34 字數 848 閱讀 9404

hdfs fsck

usage: dfsck [-move | -delete | -openforwrite] [-files [-blocks [-locations | -racks]]]

檢查這個目錄中的檔案是否完整

-move 破損的檔案移至/lost+found目錄

-delete 刪除破損的檔案

-openforwrite 列印正在開啟寫操作的檔案

-files 列印正在check的檔名

-blocks 列印block報告 (需要和-files引數一起使用)

-locations 列印每個block的位置資訊(需要和-files引數一起使用)

-racks 列印位置資訊的網路拓撲圖 (需要和-files引數一起使用)

hdfs fsck /

用這個命令可以檢查整個檔案系統的健康狀況,但是要注意它不會主動恢復備份缺失的block,這個是由namenode單獨的執行緒非同步處理的。

hive> describe database bak_spark_tpcds_parquet_1000;

okbak_spark_tpcds_parquet_1000 hdfs://holodesk01:8020/user/hive/warehouse/bak_spark_tpcds_parquet_1000.db user

time taken: 0.02 seconds, fetched: 1 row(s)

Hadoop生態系統

摘要 介紹hadoop生態系統,從hadoop生態系統有什麼成員,成員能做什麼和hadoop生態系統能夠提供大資料問題解決方案兩方面來認識。hadoop生態圖,通俗地說,就是hadoop核心模組和衍生的子專案。一幅hadoop生態圖,讓我想到了兩個問題。問題一 hadoop生態系統包括哪些成員?每個...

Hadoop 生態系統

hadoop是乙個分布式儲存和計算平台。主要解決海量資料的儲存與分析計算問題 1 高可靠性 hadoop底層維護多個資料副本,所以即使hadoop某個計算元素或儲存出現故障,也不會導致資料的丟失。2 高擴充套件性 在集群間分配任務資料,可方便的擴充套件數以乾計的節點。3 高效性 在mapreduce...

Hadoop生態系統

hadoop生態系統 廣義的hadoop hdfs 檔案儲存系統基於硬碟 yarn 資源排程框架 mapreduce 分布式處理框架 hive 資料倉儲 rconnections 資料分析 mahout 機器學習庫 pig 指令碼語言,跟hive類似 oozie 工作流引擎,管理作業執行順序 zoo...