hadoop小知識札記

hadoop實現全域性變數：唯讀的可以，可修改的不行，唯讀的可以通過configuration 或者分布式快取實現。

hadoop做影象處理時，每個map讀入乙個,每個map讀入一張，然後所有的map還要讀取一張全域性再兩張一起處理

每個map讀取乙個，會產生太多的map，可以乙個map讀取多個。

但最好，把檔案放到hbase中，用mr處理。因為hdfs存大量小檔案效率很低

hadoop一般處理十億資料，要達到秒級，需要5-7個節點，節點用是16c 24g的伺服器

paritioner介面設計與實現

totalorderpartitioner就是乙個partitioner，使用這個parittioner就能完成整體排序。多reduce

hashpartitions

簡單join關聯，等值join可以有多個reduce，不等值，不行，只能有乙個

Hadoop知識彙總

hadoop的兩大功能海量資料儲存和海量資料分析 1 hdfs 分布式檔案系統海量資料儲存 3 yarn 資源排程管理集群 hdfs工作機制基於namenode和datanode 1 namenode 響應客戶端的請求負責維護整個hdfs檔案系統的目錄樹，以及每乙個路徑檔案所對應的bloc...

hadoop 相關知識

hadoop 2.x common hdfs 儲存資料 namenode 儲存檔案系統的元資料，命名空間namespace datanode 儲存資料 secondarynamenode 輔助namenode工作週期性的合併倆個檔案 yarn hadoop 作業系統 data 資料作業系統 con...

Hadoop學習三 Hadoop入門知識

hadoop主要由namenode和datanode組成。客戶機通過與namenode和datanode的互動訪問檔案系統。對namenode的容錯非常重要。hadoop集群的配置設定好三颱虛擬機器，分別是node1,node2和node3。設定node1為namenode,在node1的core...

hadoop小知識札記

Hadoop知識彙總

hadoop 相關知識

Hadoop學習 三 Hadoop入門知識

相關推薦

Hadoop學習三 Hadoop入門知識