Hadoop學習入門筆記

1、任務執行過程分為 map -> combiner -> shuffle -> reduce

其中combiner合併函式、shuffle混洗是可選的，甚至reduce也可以沒有

2、hadoop一般使用hdfs的資料分塊大小，避免跨節點讀取資料

3、hadoop會在資料來源本地節點進行map計算

4、reduce接收多個map的輸出結果，從而會造成節點間資料的傳輸

5、合併函式需要是分布式的，其必須不能影響reduce的輸出結果

6、shuffle函式通常用hash方法，高效

7、hadoop支援多種語言，只要支援標準輸入和輸出的均可（hadoop streaming），比如ruby、python等。c++通過pipes支援，c++的程式不能在本地模式下執行，因為用到hdfs特性

示意圖

Hadoop學習三 Hadoop入門知識

hadoop主要由namenode和datanode組成。客戶機通過與namenode和datanode的互動訪問檔案系統。對namenode的容錯非常重要。hadoop集群的配置設定好三颱虛擬機器，分別是node1,node2和node3。設定node1為namenode,在node1的core...

Hadoop學習筆記 Hadoop初識

序言資訊化發展到當今，網際網路的資料量是不斷地增加，那麼如何很好的處理以及利用這些資料可能是未來的乙個發展方向，這也之所以產生了各種平台的雲計算。對於網際網路而言，大資料量可分為兩種第一大訪問量請求第二大資料量處理。大訪問量請求這個事應用端應該思考的問題，如何很好的處理大的訪問量，如何...

Hadoop學習筆記

hadoop介紹 hadoop是google雲計算框架的開源實現，是乙個分布式儲存和分布式計算的框架，主要包括hdfs和mapreduce的實現。hdfs hdfs由乙個namenode和多個datanode組成，其中namenode相當於系統的元資料存放地，它是hadoop系統的神經中樞，而多個d...

Hadoop學習入門筆記

Hadoop學習 三 Hadoop入門知識

Hadoop學習筆記 Hadoop初識

Hadoop學習筆記

相關推薦

Hadoop學習三 Hadoop入門知識