《Hadoop權威指南4》第1章初識Hadoop

1.6 apache hadoop發展簡史

1.7 本書包含的內容

未來的資料很大，個人，公共網頁的資料等等都很多。

大資料勝於好演算法。

硬碟的讀寫速度很慢跟不上資料儲存分析的需要。

hadoop的，hdfs和mapreduce解決了資料的儲存和分析的問題。

mapreduce進行每一次查詢時要處理整個資料集，適合定時批處理。

許多情況下，可以將mapreduce視為關係型資料庫管理系統的補充。mapreduce比較適合解決需要以批處理方式分析整個資料集的問題；rdbms適用於索引後資料的點查詢和更新。mapreduce適合一次寫入多次讀取資料的應用，關係型資料庫則更適合持續更新的資料集。當然兩者漸漸也增加了對方的一些特性，區別變得模糊了。

關係型資料庫操作結構化資料，hadoop處理非結構化或半結構化的資料。

網格計算適合計算密集型的作業，如果資料量龐大，計算節點會因為集群網路頻寬的瓶頸而不得不閒下來等待資料。hadoop盡量在計算節點儲存資料，已實現資料的本地快速訪問。資料本地化特性是hadoop資料處理的核心。而且這種方式下並沒有降低hadoop處理計算密集型作業的能力。

mapreduce程式設計師不需要考慮資料流機制，mpi程式設計師要顯示的處理資料流。

mapreduce程式設計師不必關心程式的執行順序以及部分任務是否失效，這些都交由分布式處理框架來考慮。mpi程式設計師需要顯示的控制作業檢查點和恢復機制。

志願計算是cpu密集型的，計算所花的時間遠超過工作單元資料的傳輸時間。志願者貢獻的是cpu週期，而不是網路頻寬。

mapreduce的三大設計目標：（1）作業往往只需要幾分鐘或者幾個小時；（2）執行在乙個高速網路連線的資料中心內；（3）資料中心內的計算機都是可靠的，專門的硬體。

志願計算接入網際網路，計算機不可信，頻寬也不同，資料本地化沒有要求。

hadoop由doug cutting的開源搜尋引擎nutch發展而來，hdfs是gfs的開源版，mapreduce也是根據google的**實現的。

hadoop現在已經成為通用的大資料儲存和分析平台。

《Hadoop權威指南4》第1章初識Hadoop

《Ansible權威指南》第1章

Hadoop權威指南（第4版）筆記一

MongoDB權威指南第10章

《Hadoop權威指南4》第1章 初識Hadoop

《Ansible權威指南》第1章

Hadoop權威指南（第4版）筆記一

MongoDB權威指南 第10章

相關推薦

《Hadoop權威指南4》第1章初識Hadoop

MongoDB權威指南第10章