Hive學習路線

前言

hive是hadoop家族中一款資料倉儲產品，hive最大的特點就是提供了類sql的語法，封裝了底層的mapreduce過程，讓有sql基礎的業務人員，也可以直接利用hadoop進行資料的操作。就是這一點，解決了原始資料分析人員對於大資料分析的瓶頸。

hive介紹

hive學習路線圖

我的使用經歷

hive的使用案例

hive的知識點，我已經列在圖中，希望幫助其他人更好的理解hive。

接下來，是我的使用經歷：

我使用hive考慮到兩點：

幫助無開發經驗的資料分析人員，有能力處理大資料

構建標準化的mapreduce開發過程

1).幫助無開發經驗的資料分析人員，有能力處理大資料

完全符合hive的設計理念，一直強調，無需多言。

2).構建標準化的mapreduce開發過程

這個方面是我們努力的方向。

首先，hive已經用類sql的語法封裝了mapreduce過程，這個封裝過程就是mapreduce的標準化過程。

我們在做業務或者工具時，會針對場景用邏輯封裝，這是第二層封裝是在hive之上的封裝。在第二層封裝時，我們要盡可能多的遮蔽hive的細節，讓介面單一化，低少靈活性，再次精簡hql的語法結構。只滿足我們的系統要求，專用的介面。

在使用二次封裝的介面時，我們已經可以不用知道hive是什麼, 更不用知道hadoop是什麼。我們只需要知道，sql查詢(sql92標準)，怎麼寫效率高，怎麼寫可以完成業務需要就可以了。

當我們完成了hive的二次封裝後，我們可以構建標準化的mapreduce開發過程。

通過上圖的思路，我們可以統一企業內部各種應用對於hive的依賴，並且當人員素質公升高後，有可以剝離hive，用更優秀的底層解決方案來替換，如果封裝的介面的不變，甚至替換hive時業務使用都不知道，我們已經替換了hive。

這個過程是需要經歷的，也是有意義的。當我在考慮構建hadoop分析工具時，以hive作為hadoop訪問介面是最有效的。

3).有關hive的運維

因為hive是基於hadoop構建的，簡單地說就是一套hadoop的訪問介面，hive本身並沒有太多的東西，所以運維上面我們注意下面幾個問題就行了。

使用單獨的資料庫儲存元資料

定義合理的表分割槽和鍵

設定合理的bucket資料量

進行表壓縮

定義外部表使用規範

hive安裝及使用攻略

hive匯入10g資料的測試

r利劍nosql系列文章之 hive

用rhive從歷史資料中提取逆回購資訊