hadoop小知識札記

2021-06-19 11:53:51 字數 439 閱讀 8959

hadoop實現全域性變數: 唯讀的可以,可修改的不行,唯讀的可以通過configuration 或者分布式快取實現。

hadoop做影象處理時,每個map讀入乙個,每個map讀入一張,然後所有的map還要讀取一張全域性再兩張一起處理

每個map讀取乙個,會產生太多的map,可以乙個map讀取多個。

但最好,把檔案放到hbase中,用mr處理。因為hdfs存大量小檔案 效率很低

hadoop一般處理十億資料,要達到秒級,需要5-7個節點,節點用是16c 24g的伺服器

paritioner介面設計與實現

totalorderpartitioner就是乙個partitioner,使用這個parittioner就能完成整體排序。多reduce

hashpartitions

簡單join關聯,等值join可以有多個reduce,不等值,不行,只能有乙個

Hadoop知識彙總

hadoop的兩大功能 海量資料儲存和海量資料分析 1 hdfs 分布式檔案系統海量資料儲存 3 yarn 資源排程管理集群 hdfs工作機制 基於namenode和datanode 1 namenode 響應客戶端的請求 負責維護整個hdfs檔案系統的目錄樹,以及每乙個路徑 檔案 所對應的bloc...

hadoop 相關知識

hadoop 2.x common hdfs 儲存資料 namenode 儲存檔案系統的元資料,命名空間namespace datanode 儲存資料 secondarynamenode 輔助namenode工作 週期性的合併倆個檔案 yarn hadoop 作業系統 data 資料作業系統 con...

Hadoop學習 三 Hadoop入門知識

hadoop主要由namenode和datanode組成。客戶機通過與namenode和datanode的互動訪問檔案系統。對namenode的容錯非常重要。hadoop集群的配置 設定好三颱虛擬機器,分別是node1,node2和node3。設定node1為namenode,在node1的core...