基於hadoop的BI架構

2021-07-16 07:03:15 字數 742 閱讀 3261

bi系統,是企業利用資料驅動運營的乙個典型系統。bi系統通過發掘企業執行過程中的資料,發現企業的潛在風險、為企業的各項決策提供資料支撐。

傳統的bi系統通常構建於關係型資料庫之上。隨著企業業務量的增大和對使用者行為實時提取分析的需要越來越高,傳統的bi架構對實時性的分析和大資料量的分析已經無法滿足,新的資料分析的解決方案便呼之欲出。

得益於hadoop對大資料和分布式計算的優勢、以及豐富的元件,使用hadoop進行bi架構便方便許多。

乙個典型的基於hadoop的bi架構如下圖所示:

該bi架構主要包括2部分:實時處理部分、離線批處理部分。

資料流:通過flume實時拉取伺服器的日誌,並將其傳送至spark和hadoop。spark利用spark structured streaming元件接收flume傳送的日誌資料,並在一定的視窗和週期下進行計算。提取出一些使用者在此時的基本行為過程,並將結果儲存至hbase。這一過程中,會涉及高頻的資料讀寫和計算需求、特別是flume和spark這一塊的話對記憶體的需求量比較大,需要做好硬體配置的規劃。同時將日誌資料寫入乙份至hadoop,主要是為了做離線分析的需要。

web伺服器部分:

架構的基本組成部分介紹的差不多了,其實這一塊基本是通用的了。資料產品的核心還是在於資料的前處理、分析挖掘上面,由於工作利益相關 在此不多做介紹,本質還是結合業務、市場等提供一些有價值的資訊。

Hadoop的組成架構

1 namenode nn 儲存檔案的元資料,如檔名,檔案目錄結構,檔案屬性 生成時間,副本數,檔案許可權 以及每個檔案的快列表和快所在的datanode等 2 datanode dn 在本地檔案系統儲存檔案塊資料,以及塊資料的校驗 3 secondarynamenode 2nn 每隔一段時間對na...

Hadoop架構分析

1.hadoop有許多元素構成。最底部是hadoop distributed file system hdfs 它儲存hadoop集群中所有儲存節點上的檔案,與hdfs相關的服務有namenode secondarynamenode以及datanode hdfs 對於文字 的上一層是mapreduc...

基於arm架構微控制器的hadoop伺服器嘗試

從 上面買了乙個arm的微控制器,上面有一顆基於armv7架構的單核cpu,1g記憶體,4g儲存。但是最主要的,是上面有網絡卡介面,雖然是100m的,但這讓構建集群成為了乙個可能。另外這個比樹莓派更好的是,上面有sata硬碟的介面,這樣,儲存的問題也可以解決。雖然我現在手裡沒有sata 2.5寸的硬...