大資料場景的元件選擇

2021-09-29 08:25:10 字數 516 閱讀 1674

批處理場景該場景對磁碟吞吐和網路吞吐要求高,處理的資料量也大,但對資料處理的實時性要求不高,您可選用 mapreduce、pig、spark 元件。該場景對記憶體要求不高,選型時您需要重點關注大作業對 cpu 和記憶體的需求,以及 shuffle 對網路的需求。

ad-hoc 查詢資料科學家或資料分析師使用即席查詢工具檢索資料。該場景對查詢實時性、磁碟吞吐和網路吞吐要求高,您可選用 e-mapreduce 的 impala 和 presto 元件。該場景對記憶體要求高,選型時需要考慮資料和併發查詢的數量。

流式計算、高網路吞吐和計算密集型場景選用 e-mapreduce flink、spark streaming 和 storm 元件。訊息佇列該場景對磁碟吞吐和網路吞吐要求高,並且記憶體消耗大,儲存不依賴於 hdfs,您可選用 e-mapreduce kafka。

為避免對 hadoop 造成影響,e-mapreduce 將 kafka 與 hadoop 分為兩個集群。

大資料元件 HBASE

1 hbase是乙個非關係型分布式資料庫 nosql bigtable 參考的是谷歌 2 高可靠 採用主從架構,使用zookeeper管理 高效能 分布式並行處理 面向列 可伸縮 可新增子節點 3 採用hdfs作為檔案儲存系統 也可以採用其它的檔案儲存系統,沒整合mr計算的功能 4 hbase擅長查...

大資料資料倉儲 場景

2015 10 24 朱潔hadoop技術學習 傳統oltp olap之分 資料倉儲裡面有oltp olap之分,oltp是傳統關係型資料庫的主要應用,其主要面向基本的 日常的事務處理,例如銀行交易。olap是資料倉儲系統的主要應用,支援複雜的分析操作,側重決策支援,並且提供直觀易懂的查詢結果。大資...

關於bitmap結構的大資料場景應用

給定乙個檔案,裡面包含40億個整數,寫乙個演算法找出檔案中不包含的乙個整數,假設你有1gb的記憶體可以用。如果只有10mb 的記憶體呢?解析 引出bitmap結構。對於40億個整數,如果直接用int陣列來表示的話,需要40億 4 8b 40 10 8 4b 16gb,超出了記憶體要求。這裡我們使用b...