spark大資料基礎概念

2021-09-25 12:36:56 字數 923 閱讀 7793

hive和hbase是兩種基於hadoop的不同技術–hive是一種類sql的引擎,並且執行mapreduce任務,

hbase是一種在hadoop之上的nosql 的key/vale資料庫。

當然,這兩種工具是可以同時使用的。就像用google來搜尋,用facebook進行社交一樣,

hive可以用來進行統計查詢,hbase可以用來進行實時查詢,資料也可以從hive寫到hbase,設定再從hbase寫回hive。

最後但不是最重要的–為了執行hbase,zookeeper是必須的,

zookeeper是乙個用來進行分布式協調的服務,這些服務包括配置服務,維護元資訊和命名空間服務。

1.hive適合處理離線的資料

2.hbase適合處理實時的資料的查詢

hive本身不儲存和計算資料,它完全依賴於hdfs和mapreduce,hive中的表純邏輯。hive需要用到hdfs儲存檔案,需要用到mapreduce計算框架。

hive可以認為是map-reduce的乙個包裝。hive的意義就是把好寫的hive的sql轉換為複雜難寫的map-reduce程式。

hbase可以認為是hdfs的乙個包裝。他的本質是資料儲存,是個nosql資料庫;hbase部署於hdfs之上,並且克服了hdfs在隨機讀寫方面的缺點。

下面這個鏈結非常重要:

可以看到spark+hbase

spark+hive優於spark+hbase(nosql)

這個鏈結中提到,元資料庫可以是derby資料庫也可以是mysql資料庫

在有mysql的情況下,為什麼要使用hive

非關係型資料庫有以下這些:

mongodb,redis,hbase

關係型的出名的有 sql server,oracle,mysql,postgresql,db2,sqlite ,

剩下的基本是nosql 新出的

大資料 基礎概念

hadoop 分布式系統基礎架構 入門學習資料 spark 基於記憶體的計算框架 spark streaming sparksql spark的重要組成部分 hbase 可伸縮,面向列的分布式雲儲存系統 hive 建立在hadoop上的資料倉儲基礎架構。hive定義了簡單的類sql查詢語言,允許使用...

SPARK基礎概念

可以認為應用是多次批量計算組合起來的過程,在物理上可以表現為你寫的程式包 部署配置。應用的概念類似於計算機中的程式,它只是乙個藍本,尚沒有執行起來。spark學習筆記三 spark原理介紹 spark最重要的api,使用者邏輯與spark集群主要的互動介面,它會和cluster master互動,包...

Spark基礎概念

spark 提供了乙個全面 統一的框架用於管理各種有著不同性質 文字資料 圖表資料等 的資料集和資料來源 批量資料或實時的流資料 的大資料處理的需求。包含spark 的基本功能 尤其是定義rdd 的api 操作以及這兩者上的動作。其他spark 的庫都是構建在rdd 和spark core 之上的。...