大資料平台搭建基於Hadoop的資料分析平台

網際網路的發展，帶來了各種資料的爆發式增長，所有接入網際網路的相關操作行為，都化為虛擬的資料被記錄了下來。大資料時代的帶來，乙個明顯的變化就是全樣本資料分析，面對tb/pb級及以上的資料規模，hadoop成為主流選擇。

企業要進行大規模的資料分析，基於開源的hadoop及其生態圈來搭建起大資料系統平台，無疑是一種低成本高效率的選擇。

hadoop在大資料技術生態圈，經過這麼多年的發展，基礎核心架構的地位，依然穩固。hadoop系統的可伸縮性、健壯性、計算效能以及低成本，使得它事實上已成為當前網際網路企業主流的大資料分析平台解決方案。

基於hadoop，可以根據企業實際的業務需求，來進行資料系統的規劃和設計。針對不同的具體需求，採用不同的資料分析架構和框架元件來解決實際問題。

按照資料分析的時效性需求，大資料分析可分為實時資料分析和離線資料分析兩種。

實時資料分析一般用於金融、移動和網際網路b2c等產品，往往要求在數秒內返回上億行資料的分析，從而達到不影響使用者體驗的目的。

在hadoop生態圈，這些需求可以進行合理的規劃。對於大多數反饋時間要求不是那麼嚴苛的應用，比如離線統計分析、機器學習、搜尋引擎的反向索引計算、推薦引擎的計算等，可採用離線分析的方式，通過資料採集工具將日誌資料匯入專用的分析平台。

主流的海量資料採集工具，有facebook開源的scribe、linkedin開源的kafka、**開源的timetunnel、hadoop的chukwa等，均可以滿足每秒數百mb的日誌資料採集和傳輸需求，並將這些資料上載到hadoop**系統上。

另外，按照大資料的資料量，分為記憶體級別、bi級別、海量級別三種，也需要分別考量，採取合適的方案。

這裡的記憶體級別指的是資料量不超過集群的記憶體最大值，通常可以採用一些記憶體資料庫，將熱點資料常駐記憶體之中，從而取得非常快速的分析能力，非常適合實時分析業務。在這方面，mongodb的應用很普遍。

bi級別指的是那些對於記憶體來說太大的資料量，主流的bi產品都有支援tb級以上的資料分析方案。種類繁多，就不具體列舉了。

海量級別指的是對於資料庫和bi產品已經完全失效或者成本過高的資料量。在這類場景下，hadoop無疑是就是低成本的高效解決方案了。

關於大資料平台搭建，基於hadoop的資料分析平台，以上就是今天的分享內容了。在大資料的發展當中，hadoop歷經多年，仍然佔據重要的市場地位，掌握相關技術，仍然是行業工作者們重要能力要求。

大資料平台搭建 基於Hadoop的資料分析平台