大資料入門 2 Hadoop HDFS詳解1

2021-09-25 05:39:08 字數 847 閱讀 6981

以前64m,現在128m 容量規格

也可dfs.blocksize: 128m調整為256m,基於生產環境決定。

hdfs 適應場景: 大檔案儲存,小檔案是致命的

生產上:1.小檔案閾值,

自己去看一下,取個中間值。

2.如何合併小檔案:

資料未落地到hdfs之前合併,資料已經落到hdfs,spark service服務 ,每天去排程去合併 (-15天 根據業務週期決定)

3.小檔案危害:

(1)namenode需要的記憶體大大增大,增加namenode壓力,這樣會限制了集群的擴充套件。

(2)計算的時候,小檔案越多,任務就越多,不是很有利。影響hive ,spark速度。

案例:小檔案會把nn名稱節點老大(4g=42億位元組)撐爆

1個小檔案(閾值<=30m): nn節點維護的位元組大約250位元組

1億個小檔案 250b*1億=250億位元組

1億個小檔案合併100萬個大檔案:250b*1百萬=2億位元組

偽分布式 :1臺 ,副本資料只能為1,生產上副本數一般是官方預設引數: 3份。

dfs.replication : 3,分布在不同機器。

題目: 塊大小128m 副本數3份,

乙個檔案260m,請問多少塊,多少實際儲存?

260/128約等於3塊

3塊*3個副本=9塊

260m * 3個副本 =780m

大資料入門 2 Hadoop shuffle

過程 map shuffle reduce 19 07 13 19 55 31 info mapreduce.job map 0 reduce 0 19 07 13 19 55 42 info mapreduce.job map 50 reduce 0 19 07 13 19 55 43 info ...

大資料入門

處理過程 cpu處理記憶體資料,記憶體資料從硬碟中讀取 瓶頸 當資料量大時,會增加硬碟到記憶體的io 單機為縱向擴充套件,成本較高,要求硬碟要大,記憶體要大,cpu速度要快 分布式儲存 大資料用n臺伺服器存放乙份大的資料,對資料進行並行處理,io比單臺裝置整整提公升n倍。解決伺服器成本問題和io讀寫...

大資料基礎Hadoop 2 x入門

儲存和分析網路資料 三大元件 hdfs yarn common hive 蜜蜂 通過使用sql語句來執行hadoop任務 hbase 儲存結構化資料的分布式資料庫 zookeeper 維護節點狀態 使用docker安裝 docker run i t p 50070 50070 p 9000 9000...