Hadoop學習筆記 Hadoop初識

序言：

資訊化發展到當今，網際網路的資料量是不斷地增加，那麼如何很好的處理以及利用這些資料可能是未來的乙個發展方向，這也之所以產生了各種平台的雲計算。對於網際網路而言，大資料量可分為兩種：第

一、大訪問量請求；第

二、大資料量處理。大訪問量請求這個事應用端應該思考的問題，如何很好的處理大的訪問量，如何實現應用端的負載均衡這個不是我這裡討論的話題。大訪問量將會帶來大資料量的處理，因為使用者的請求一般都會帶來後端的處理，於是給以使用者的響應，那麼後端的處理比較牽扯到資料的處理。對於乙個大訪問量的系統，那麼它的資料量必定會是龐大的，那麼如何很好的處理這些龐大的資料，hadoop是其中一種處理方式，也是當前比較流行的處理方式。故而趁工作之餘學習一下hadoop，從而豐富一下解決問題的方法。

hadoop的核心模組是mapreduce以及hdfs（hadoop filesystem）。隨著hadoop的發展也出現了其他的一些模組例如：pig、hive以及hbase等等，通過這些模組達到豐富了hadoop的生態圈。

mapreduce就是對資料分析處理的乙個過程，它基於鍵值對的方式來分析處理資料，從而達到資料的分塊處理，而hdfs是乙個分布式檔案系統。通過這兩個模組就可以完成對資料的分析以及儲存。mapreduce對資料的處理分為兩個部分，乙個是map方法所處理的過程，這裡主要是對資料進行鍵/值處理，需要確定資料的哪些屬性為鍵，哪些屬性為值，所以這裡的鍵/值對資料並沒有要求，而是開發人員自己挑選，顧從這裡可以看出hadoop對待處理資料的結構沒有限制。那麼另乙個是reduce方法，這裡就是收集map分類好的資料，進行分析然後進行處理。那麼這兩個方法的呼叫全部都丟給hadoop的乙個job任務來執行。這就是hadoop處理資料的乙個基本過程。

hadoop從儲存的資料型別是非結構化或者是半結構化的儲存，而關係型資料庫是儲存結構化的資料。下面一張表描述了它們兩者間的區別：

從該表中可以看出hadoop適合做一次寫入多次讀取的資料處理，並不適合實時更新的資料，通過這張表就可以很好地定位hadoop在開發中所處理的問題。

Hadoop學習筆記 Hadoop初識

Hadoop到底能做什麼？怎麼用hadoop？

Hadoop學習筆記

Hadoop學習筆記

相關推薦