《Hadoop權威指南4》第1章 初識Hadoop

2021-09-20 13:17:34 字數 1081 閱讀 6206

1.6 apache hadoop發展簡史

1.7 本書包含的內容

未來的資料很大,個人,公共網頁的資料等等都很多。

大資料勝於好演算法。

硬碟的讀寫速度很慢跟不上資料儲存分析的需要。

hadoop的,hdfs和mapreduce解決了資料的儲存和分析的問題。

mapreduce進行每一次查詢時要處理整個資料集,適合定時批處理。

許多情況下,可以將mapreduce視為關係型資料庫管理系統的補充。mapreduce比較適合解決需要以批處理方式分析整個資料集的問題;rdbms適用於索引後資料的點查詢和更新。mapreduce適合一次寫入多次讀取資料的應用,關係型資料庫則更適合持續更新的資料集。當然兩者漸漸也增加了對方的一些特性,區別變得模糊了。

關係型資料庫操作結構化資料,hadoop處理非結構化或半結構化的資料。

網格計算適合計算密集型的作業,如果資料量龐大,計算節點會因為集群網路頻寬的瓶頸而不得不閒下來等待資料。hadoop盡量在計算節點儲存資料,已實現資料的本地快速訪問。資料本地化特性是hadoop資料處理的核心。而且這種方式下並沒有降低hadoop處理計算密集型作業的能力。

mapreduce程式設計師不需要考慮資料流機制,mpi程式設計師要顯示的處理資料流。

mapreduce程式設計師不必關心程式的執行順序以及部分任務是否失效,這些都交由分布式處理框架來考慮。mpi程式設計師需要顯示的控制作業檢查點和恢復機制。

志願計算是cpu密集型的,計算所花的時間遠超過工作單元資料的傳輸時間。志願者貢獻的是cpu週期,而不是網路頻寬。

mapreduce的三大設計目標:(1)作業往往只需要幾分鐘或者幾個小時;(2)執行在乙個高速網路連線的資料中心內;(3)資料中心內的計算機都是可靠的,專門的硬體。

志願計算接入網際網路,計算機不可信,頻寬也不同,資料本地化沒有要求。

hadoop由doug cutting的開源搜尋引擎nutch發展而來,hdfs是gfs的開源版,mapreduce也是根據google的**實現的。

hadoop現在已經成為通用的大資料儲存和分析平台。

《Ansible權威指南》第1章

第一篇 part 1 基礎入門篇 第1章 ansible基礎入門 第2章 ansible基礎元素介紹 第3章 ansible ad hoc命令集 第4章 playbook快速入門 第5章 ansible playbook拓展 第1章 ansible基礎入門 從早期all in one 所有應用部署在...

Hadoop權威指南(第4版)筆記一

hadoop盡量在計算節點上存資料,以實現資料的快速訪問,即資料本地化 data locatily 1 為只需要短短幾分鐘或數小時就能完成的任務設計。2 執行於同乙個內部有高速網路連線的資料中心。3 資料中心的計算機都是可靠的,專門的硬體。a,本地資料,本地執行 即在儲存有輸入資料 hdfs中的資料...

MongoDB權威指南 第10章

mongodb權威指南 10.1 同步 start 複製用於在多台伺服器之間備份資料.mongodb的複製功能是使用操作日誌oplog實現的,操作日誌包含了主節點的每一次寫操作.oplog是主節點local庫的乙個固定集合.備份節點通過查詢這個集合就可以知道需要進行複製的操作.每個備份節點都維護著自...