Hadoop學習入門筆記

2021-06-16 09:13:46 字數 477 閱讀 8717

1、任務執行過程分為 map -> combiner -> shuffle -> reduce

其中combiner合併函式、shuffle混洗是可選的,甚至reduce也可以沒有

2、hadoop一般使用hdfs的資料分塊大小,避免跨節點讀取資料

3、hadoop會在資料來源本地節點進行map計算

4、reduce接收多個map的輸出結果,從而會造成節點間資料的傳輸

5、合併函式需要是分布式的,其必須不能影響reduce的輸出結果

6、shuffle函式通常用hash方法,高效

7、hadoop支援多種語言,只要支援標準輸入和輸出的均可(hadoop streaming),比如ruby、python等。c++通過pipes支援,c++的程式不能在本地模式下執行,因為用到hdfs特性

示意圖

Hadoop學習 三 Hadoop入門知識

hadoop主要由namenode和datanode組成。客戶機通過與namenode和datanode的互動訪問檔案系統。對namenode的容錯非常重要。hadoop集群的配置 設定好三颱虛擬機器,分別是node1,node2和node3。設定node1為namenode,在node1的core...

Hadoop學習筆記 Hadoop初識

序言 資訊化發展到當今,網際網路的資料量是不斷地增加,那麼如何很好的處理以及利用這些資料可能是未來的乙個發展方向,這也之所以產生了各種平台的雲計算。對於網際網路而言,大資料量可分為兩種 第 一 大訪問量請求 第 二 大資料量處理。大訪問量請求這個事應用端應該思考的問題,如何很好的處理大的訪問量,如何...

Hadoop學習筆記

hadoop介紹 hadoop是google雲計算框架的開源實現,是乙個分布式儲存和分布式計算的框架,主要包括hdfs和mapreduce的實現。hdfs hdfs由乙個namenode和多個datanode組成,其中namenode相當於系統的元資料存放地,它是hadoop系統的神經中樞,而多個d...