以前64m,現在128m 容量規格
也可dfs.blocksize: 128m調整為256m,基於生產環境決定。
hdfs 適應場景: 大檔案儲存,小檔案是致命的
生產上:1.小檔案閾值,
自己去看一下,取個中間值。
2.如何合併小檔案:
資料未落地到hdfs之前合併,資料已經落到hdfs,spark service服務 ,每天去排程去合併 (-15天 根據業務週期決定)
3.小檔案危害:
(1)namenode需要的記憶體大大增大,增加namenode壓力,這樣會限制了集群的擴充套件。
(2)計算的時候,小檔案越多,任務就越多,不是很有利。影響hive ,spark速度。
案例:小檔案會把nn名稱節點老大(4g=42億位元組)撐爆
1個小檔案(閾值<=30m): nn節點維護的位元組大約250位元組
1億個小檔案 250b*1億=250億位元組
1億個小檔案合併100萬個大檔案:250b*1百萬=2億位元組
偽分布式 :1臺 ,副本資料只能為1,生產上副本數一般是官方預設引數: 3份。
dfs.replication : 3,分布在不同機器。
題目: 塊大小128m 副本數3份,
乙個檔案260m,請問多少塊,多少實際儲存?
260/128約等於3塊
3塊*3個副本=9塊
260m * 3個副本 =780m
大資料入門 2 Hadoop shuffle
過程 map shuffle reduce 19 07 13 19 55 31 info mapreduce.job map 0 reduce 0 19 07 13 19 55 42 info mapreduce.job map 50 reduce 0 19 07 13 19 55 43 info ...
大資料入門
處理過程 cpu處理記憶體資料,記憶體資料從硬碟中讀取 瓶頸 當資料量大時,會增加硬碟到記憶體的io 單機為縱向擴充套件,成本較高,要求硬碟要大,記憶體要大,cpu速度要快 分布式儲存 大資料用n臺伺服器存放乙份大的資料,對資料進行並行處理,io比單臺裝置整整提公升n倍。解決伺服器成本問題和io讀寫...
大資料基礎Hadoop 2 x入門
儲存和分析網路資料 三大元件 hdfs yarn common hive 蜜蜂 通過使用sql語句來執行hadoop任務 hbase 儲存結構化資料的分布式資料庫 zookeeper 維護節點狀態 使用docker安裝 docker run i t p 50070 50070 p 9000 9000...