大資料場景的元件選擇

2021-09-29 08:25:10 字數 516 閱讀 1674

批處理場景該場景對磁碟吞吐和網路吞吐要求高，處理的資料量也大，但對資料處理的實時性要求不高，您可選用 mapreduce、pig、spark 元件。該場景對記憶體要求不高，選型時您需要重點關注大作業對 cpu 和記憶體的需求，以及 shuffle 對網路的需求。

ad-hoc 查詢資料科學家或資料分析師使用即席查詢工具檢索資料。該場景對查詢實時性、磁碟吞吐和網路吞吐要求高，您可選用 e-mapreduce 的 impala 和 presto 元件。該場景對記憶體要求高，選型時需要考慮資料和併發查詢的數量。

流式計算、高網路吞吐和計算密集型場景選用 e-mapreduce flink、spark streaming 和 storm 元件。訊息佇列該場景對磁碟吞吐和網路吞吐要求高，並且記憶體消耗大，儲存不依賴於 hdfs，您可選用 e-mapreduce kafka。

為避免對 hadoop 造成影響，e-mapreduce 將 kafka 與 hadoop 分為兩個集群。

大資料元件 HBASE

1 hbase是乙個非關係型分布式資料庫 nosql bigtable 參考的是谷歌 2 高可靠採用主從架構，使用zookeeper管理高效能分布式並行處理面向列可伸縮可新增子節點 3 採用hdfs作為檔案儲存系統也可以採用其它的檔案儲存系統，沒整合mr計算的功能 4 hbase擅長查...

大資料資料倉儲場景

2015 10 24 朱潔hadoop技術學習傳統oltp olap之分資料倉儲裡面有oltp olap之分，oltp是傳統關係型資料庫的主要應用，其主要面向基本的日常的事務處理，例如銀行交易。olap是資料倉儲系統的主要應用，支援複雜的分析操作，側重決策支援，並且提供直觀易懂的查詢結果。大資...

關於bitmap結構的大資料場景應用

給定乙個檔案，裡面包含40億個整數，寫乙個演算法找出檔案中不包含的乙個整數，假設你有1gb的記憶體可以用。如果只有10mb 的記憶體呢？解析引出bitmap結構。對於40億個整數，如果直接用int陣列來表示的話，需要40億 4 8b 40 10 8 4b 16gb,超出了記憶體要求。這裡我們使用b...