大資料家族各服務之間的關係 hadoop生態系統

大資料是近年來比較熱門的概念，在整個大資料技術中又以hadoop生態圈較為常用。由於整個hadoop生態所涉及的服務比較多，很容易造成混亂。在此結合自己在工作中所接觸到的知識作一篇簡單隨筆來記錄一下，以供眾多對大資料有興趣的朋友了解。

hdfs：簡單的說就是乙個分布式檔案系統，類似於fat32,ntfs,是一種檔案格式,是底層的。主要解決單機儲存能力有限的問題。

hive：主要解決資料處理和計算問題，不支援更改資料的操作。

hive是hadoop資料倉儲，嚴格來說，不是資料庫，主要是讓開發人員能夠通過sql來計算和處理hdfs上的結構化資料，適用於離線的批量資料計算。）

hbase：hadoop database 的簡稱，也就是基於hadoop資料庫,採用的是列式儲存。

主要解決實時資料查詢問題。是一種nosql資料庫，適用於海量明細資料（十億、百億）的隨機實時查詢，如日誌明細、交易清單、軌跡行為等。

hive和hbase兩者的關係：hive和hbase一般情況下是配合使用的，因為他們某乙個很難適用所有場景。

資料的一般處理流程：

1、通過etl工具將資料來源抽取到hdfs儲存；

2、通過hive清洗、處理和計算原始資料；

3、hive清洗處理後的結果，如果是面向海量資料隨機查詢場景的可存入hbase。若面向的是離線批量處理，則仍然放在hive中，如公司銷售年度報表；

5、資料應用從hbase或hive查詢資料。

《大資料（電商數倉專案）集群各服務啟動指令碼》

1.hadoop 啟動停止指令碼 yx hadoop.sh bin bash hadoop集群的一鍵啟動指令碼 if 1 then echo 請輸入start stop引數 exit fi 只允許傳入start和stop引數 if 1 start 1 stop then 1 dfs.sh 1 yar...

如何理解Hadoop與大資料之間的關係

首先，大資料本身涉及到乙個龐大的技術體系，從學科的角度來看，涉及到數學統計學和計算機三大學科，同時還涉及到社會學經濟學醫學等學科，所以大資料本身的知識量還是非常大的。從當前大資料領域的產業鏈來看，大資料領域涉及到資料採集資料儲存資料分析和資料應用等環節，不同的環節需要採用不同的技術，但是這...

大資料家族各服務之間的關係 hadoop生態系統

《大資料 （電商數倉專案） 集群各服務啟動指令碼》

如何理解Hadoop與大資料之間的關係

如何理解Hadoop與大資料之間的關係

相關推薦

《大資料（電商數倉專案）集群各服務啟動指令碼》