Hadoop學習篇之 1初識Hadoop

為什麼要創造（發明/使用）hadoop？hadoop的存在有什麼意義？

資料的儲存面臨一系列的問題：

雖然磁碟儲存容量快速增加，但訪問速度並沒有太大的變化。

要實現對多個磁碟資料的並行讀寫，還有更多的問題要解決。

總之，hadoop有著可靠的共享儲存和分析系統。hdfs實現儲存，而mapreduce實現分析處理，這兩部分是hadoop的核心。

使用其他系統不能解決上面的問題嗎？為什麼必須使用hadoop？

mapreduce的查詢處理比較蠻力，因為每個查詢需要處理整個資料集（或至少資料集的很大一部分）。

反過來想，這也是hadoop的優秀之處。mapreduce是一種批量查詢處理器，能夠在合理的時間內，處理針對整個資料集的即時（ad hoc）查詢。

為什麼不用資料庫做批量分析，而需要mapreduce呢？

資料庫也可以對大規模資料進行批量分析，例如使用sql server的sql語言，就可以進行批量查詢處理，那為什麼不這樣使用呢？

因為資料庫查詢時，定址時間遠遠慢於傳輸速率。（定址也就是將磁頭移動到特定磁碟位置進行讀寫操作的過程。）

這部分的標題為什麼取名為」關係型資料庫呢？mapreduce與關係型資料庫有什麼關係嗎？」

首先，什麼是關係型資料庫？

關係型資料庫是一種二維**模型，是由二維表及其之間的聯絡組成的乙個資料組織。

然後，mapreduce與關係型資料庫有什麼聯絡呢？

在許多情況下，mapreduce可以視為關係型資料庫管理系統的補充。為什麼呢？

Hadoop學習筆記1 初識Hadoop

資料越來越多，資料的增長越來越快，儲存和分析這些資料成為挑戰！當資料量逐漸變大時，單個磁碟的讀寫速度成為瓶頸。解決辦法是，將資料分散儲存，通過並行讀取提高讀寫資料。要達到這種目的，面臨的2個問題 hadoop的hdfs和mapreduce為這兩個問題提供了解決方案。為什麼不能用關係型資料庫更多磁碟...

Hadoop學習筆記 Hadoop初識

序言資訊化發展到當今，網際網路的資料量是不斷地增加，那麼如何很好的處理以及利用這些資料可能是未來的乙個發展方向，這也之所以產生了各種平台的雲計算。對於網際網路而言，大資料量可分為兩種第一大訪問量請求第二大資料量處理。大訪問量請求這個事應用端應該思考的問題，如何很好的處理大的訪問量，如何...

Hadoop之HA高可用性

ha存在的背景 ha的工作原理圖 hdfs ha高可用性 1 active namenode對外提供服務和standby namenode時刻待機準備的 2 保證兩個namenode任何時候都是元資料同步的 3 standby namenode同樣需要去讀取fsimage和edits檔案 edits...

Hadoop學習篇 之 1初識Hadoop

Hadoop學習筆記1 初識Hadoop

Hadoop學習筆記 Hadoop初識

Hadoop之HA高可用性

相關推薦

Hadoop學習篇之 1初識Hadoop