Hadoop入門學習總結系列文章目錄

這是乙個資訊**的時代。經過數十年的積累，很多企業都聚集了大量的資料。這些資料也是企業的核心財富之一，怎樣從累積的資料裡尋找價值，變廢為寶煉數成金成為當務之急。但資料增長的速度往往比cpu和記憶體效能增長的速度還要快得多。要處理海量資料，如果求助於昂貴的專用主機甚至超級計算機，成本無疑很高，有時即使是儲存資料，也需要面對高成本的問題，因為具有海量資料容量的儲存裝置，**往往也是天文數字。成本和it能力成為了海量資料分析的主要瓶頸。

hadoop這個開源產品的出現，打破了對資料力量的壓制。hadoop源於nutch這個小型的搜尋引擎專案。而nutch則出自於著名的開源搜尋引擎解決方案lucene，而lucene則**於對google的學習模仿。在hadoop身上有著明顯的google的影子。hdfs是gfs的山寨版，map-reduce的思想**於goolge對page rank的計算方法，hbase模仿的是big table，zookeeper則學習了chubby。google巨人的力量儘管由於商業的原因被層層封鎖，但在hadoop身上得到了完美的重生和發展。

從2023年apache**會接納hadoop專案以來。hadoop已經成為雲計算軟體的乙個事實標準，以及開源雲計算解決方案的幾乎唯一選擇。對於想用低成本（包括軟硬體）實現雲計算平台或海量資料分析平台的使用者，hadoop集群是首選的物件。由於hadoop在各方面都打破了傳統關係型資料庫的思路和模式，對於新接觸hadoop平台的人，往往會覺得困惑和難以理解，進而轉化為畏懼。

因此，為了趕上大資料時代的發展，迎接雲計算的思維，儘管我做的是.net的應用開發工作，但我仍然選擇業餘時間學習hadoop。我會從hadoop1.x版本開始學習經典的hdfs與mapreduce，然後了解hadoop2.x版本與老版本的差異，熟悉一些常見的hadoop應用場景，並學著實踐乙個最經典的專案（**日誌資料分析案例）來完成我給自己規劃的學習任務。

（1）基礎介紹與環境搭建

（6）hadoop eclipse外掛程式的使用

（13）分布式集群中節點的動態新增與下架

（2）不怕故障的海量儲存之hdfs基礎入門

（3）hadoop rpc機制的使用

（4）初識mapreduce

（5）自定義型別處理手機上網日誌

（7）計數器與自定義計數器

（8）combiner與自定義combiner

（9）partioner與自定義partitioner

（10）reduce階段中的shuffle過程

（11）mapreduce中的排序和分組

（12）mapreduce中的常見演算法

（14）zookeeper環境搭建

（15）hbase框架學習之基礎知識篇

（15）hbase框架學習之基礎實踐篇

（16）pig框架學習

（17）hive框架學習

（18）sqoop框架學習

（19）flume框架學習

（20）**日誌分析專案（一）專案介紹

（20）**日誌分析專案（二）資料清洗

（20）**日誌分析專案（三）統計分析

（21）hadoop2的改進內容簡介

（22）hadoop2.x環境搭建與配置

出處：

Hadoop入門學習總結系列文章目錄

Hadoop學習三 Hadoop入門知識

hadoop學習總結

Hadoop學習總結

Hadoop入門學習總結系列文章目錄

Hadoop學習 三 Hadoop入門知識

hadoop學習總結

Hadoop學習總結

相關推薦

Hadoop學習三 Hadoop入門知識