hadoop自學路線

2021-06-27 06:18:45 字數 609 閱讀 9389

①選擇乙個hadoop的版本,然後閱讀文件了解hadoop:what's hadoop, why hadoop exists;

②安裝hadoop,三種方式都試下;

③在hadoop文件裡面有hadoop command的資料,i.hdfs command,ii.job command,盡量試試這兩方面的命令;

④hadoop files,看看hadoop檔案的概念,關注它的分布式特點,然後看看reduce函式輸出的檔案;

⑤自己寫wordcount與advanced wordcount;

⑥寫hdfs io,這個例子在《hadoop in action》裡面有,講得也不錯。如copy,sequencefile等;

⑦寫sort程式;

⑧寫mrbench程式(這個網上有很多例子),了解mrbench是什麼;

⑨使用randomtextwriter;

10.模仿sequencefileinputformat、sequencefileoutputformat、sequencefilerecordreader寫自己的;

11.yahoo有乙個hadoop的教程,英文版的,裡面的內容很好;

12.《hadoop權威指南》當參考書,自己實戰了

Hadoop學習路線

按照這個路線圖來學習即可。1 m.tim jones的三篇文章 用hadoop進行分布式資料處理第1部分 入門 用hadoop進行分布式資料處理第2部分 高階 用hadoop進行分布式資料處理第3部分 應用程式開發 2 銀河裡的星星 的部落格,其中的google 系列 就包括開創性 mapreduc...

Py爬蟲自學路線

1.json資料格式 2.python3中的urllib包 官方文件 中文翻譯版 request物件 urllib.parse包 3.http請求頭中user agent使用者 4.重定向 7.utf 8轉換工具 utf 8 unicode acsii學習 8.向檔案追加內容 9.yield使用方法...

java自學之路 執行緒(2)

兩個練習執行緒的例子 有乙個資源類,裡面有100張票要賣出,有賣票的方法 class ticket implements runnablecatch exception e if ticket 0 sell else return public void sell 建立三個執行緒執行買票任務 pub...