大資料入門 2 Hadoop HDFS詳解1

以前64m，現在128m 容量規格也可dfs.blocksize: 128m調整為256m，基於生產環境決定。 hdfs 適應場景: 大檔案儲存，小檔案是致命的

生產上:1.小檔案閾值，自己去看一下，取個中間值。 2.如何合併小檔案: 資料未落地到hdfs之前合併，資料已經落到hdfs，spark service服務，每天去排程去合併（-15天根據業務週期決定） 3.小檔案危害: （1）namenode需要的記憶體大大增大，增加namenode壓力，這樣會限制了集群的擴充套件。（2）計算的時候，小檔案越多，任務就越多，不是很有利。影響hive ，spark速度。案例：小檔案會把nn名稱節點老大(4g=42億位元組)撐爆 1個小檔案(閾值<=30m): nn節點維護的位元組大約250位元組 1億個小檔案 250b*1億=250億位元組 1億個小檔案合併100萬個大檔案：250b*1百萬=2億位元組

偽分布式 ：1臺 ，副本資料只能為1，生產上副本數一般是官方預設引數: 3份。
dfs.replication : 3，分布在不同機器。
題目: 塊大小128m 副本數3份，
乙個檔案260m，請問多少塊，多少實際儲存？
260/128約等於3塊
3塊*3個副本=9塊
260m * 3個副本 =780m
大資料入門 2 Hadoop shuffle
過程 map shuffle reduce 19 07 13 19 55 31 info mapreduce.job map 0 reduce 0 19 07 13 19 55 42 info mapreduce.job map 50 reduce 0 19 07 13 19 55 43 info ...
大資料入門
處理過程 cpu處理記憶體資料，記憶體資料從硬碟中讀取 瓶頸 當資料量大時，會增加硬碟到記憶體的io 單機為縱向擴充套件，成本較高，要求硬碟要大，記憶體要大，cpu速度要快 分布式儲存 大資料用n臺伺服器存放乙份大的資料，對資料進行並行處理，io比單臺裝置整整提公升n倍。解決伺服器成本問題和io讀寫...
大資料基礎Hadoop 2 x入門
儲存和分析網路資料 三大元件 hdfs yarn common hive 蜜蜂 通過使用sql語句來執行hadoop任務 hbase 儲存結構化資料的分布式資料庫 zookeeper 維護節點狀態 使用docker安裝 docker run i t p 50070 50070 p 9000 9000...

大資料入門 2 Hadoop HDFS詳解1

大資料入門 2 Hadoop shuffle

大資料入門

大資料基礎Hadoop 2 x入門

相關推薦