谷歌大資料的三駕馬車

本文介紹大資料分析的鼻祖型**「谷歌三駕馬車」。這包括處理分布式資料的mapreduce、儲存大量資料的gfs以及列式儲存bigtable，當前流行的大資料技術都是在谷歌發表了這三大**以後，不斷的發展起來的，典型的就是apache開源的hadoop和hbase，其中hadoop的mapreduce和hdfs的思想**於谷歌mapreduce和gfs**，而hbase**於谷歌的bigtable**。

介紹：mapreduce是乙個處理大資料集的程式設計模型。它通過map函式把基於行的輸入轉化成不同的鍵值對，再通過reduce函式把這些鍵值對針對相同的鍵進行聚合，並在聚合的過程中進行相應的計算。

其中的重點是：

1、把文章按照行來切分。

2、在map階段，對每一行的每個單詞構建乙個鍵值對，鍵是單詞本身，值是固定值"1"。

3、對map的結果進行分割槽，使用預設策略，通過雜湊進行分割槽。

4、在reduce階段，統計聚合在同乙個key的值的數量，得出每個單詞出現的次數。

介紹：gfs是乙個分布式檔案系統，用來儲存大量的較大檔案，它可以在廉價的硬體上實現儲存檔案，並做到容錯性，並且針對多個客戶同時訪問提供比較有競爭力的效能。

其中的重點是：

介紹：bigtable是乙個可以管理結構化資料的分布式儲存系統，它本身支援水平的橫向擴充套件，通過使用成千上萬的連線伺服器，來支援pb量級的資料處理。

其中的重點是：

介紹：在第一代mapdure的實現中，資源分配和任務監控都耦合在master節點上，在worker節點數增加到一定的數量級，master節點出現了效能瓶頸，下一代mapreduce框架yarn把資源管理器和任務管理器分離，解決了這個效能瓶頸。

谷歌大資料的三駕馬車

成功大資料團隊的「三駕馬車」

全面了解大資料「三駕馬車」的開源實現

全面了解大資料「三駕馬車」的開源實現

谷歌大資料的三駕馬車

成功大資料團隊的「三駕馬車」

全面了解大資料「三駕馬車」的開源實現

全面了解大資料「三駕馬車」的開源實現

相關推薦