基於hadoop的BI架構

bi系統，是企業利用資料驅動運營的乙個典型系統。bi系統通過發掘企業執行過程中的資料，發現企業的潛在風險、為企業的各項決策提供資料支撐。

傳統的bi系統通常構建於關係型資料庫之上。隨著企業業務量的增大和對使用者行為實時提取分析的需要越來越高，傳統的bi架構對實時性的分析和大資料量的分析已經無法滿足，新的資料分析的解決方案便呼之欲出。

得益於hadoop對大資料和分布式計算的優勢、以及豐富的元件，使用hadoop進行bi架構便方便許多。

乙個典型的基於hadoop的bi架構如下圖所示：

該bi架構主要包括2部分：實時處理部分、離線批處理部分。

資料流：通過flume實時拉取伺服器的日誌，並將其傳送至spark和hadoop。spark利用spark structured streaming元件接收flume傳送的日誌資料，並在一定的視窗和週期下進行計算。提取出一些使用者在此時的基本行為過程，並將結果儲存至hbase。這一過程中，會涉及高頻的資料讀寫和計算需求、特別是flume和spark這一塊的話對記憶體的需求量比較大，需要做好硬體配置的規劃。同時將日誌資料寫入乙份至hadoop，主要是為了做離線分析的需要。

web伺服器部分：

架構的基本組成部分介紹的差不多了，其實這一塊基本是通用的了。資料產品的核心還是在於資料的前處理、分析挖掘上面，由於工作利益相關在此不多做介紹，本質還是結合業務、市場等提供一些有價值的資訊。

基於hadoop的BI架構

Hadoop的組成架構

Hadoop架構分析

基於arm架構微控制器的hadoop伺服器嘗試

基於hadoop的BI架構

Hadoop的組成架構

Hadoop架構分析

基於arm架構微控制器的hadoop伺服器嘗試

相關推薦