Hive學習路線

2021-06-30 16:49:42 字數 1469 閱讀 1075

前言

hive是hadoop家族中一款資料倉儲產品,hive最大的特點就是提供了類sql的語法,封裝了底層的mapreduce過程,讓有sql基礎的業務人員,也可以直接利用hadoop進行資料的操作。就是這一點,解決了原始資料分析人員對於大資料分析的瓶頸。

目錄

hive介紹

hive學習路線圖

我的使用經歷

hive的使用案例

hive的知識點,我已經列在圖中,希望幫助其他人更好的理解hive。

接下來,是我的使用經歷:

我使用hive考慮到兩點:

幫助無開發經驗的資料分析人員,有能力處理大資料

構建標準化的mapreduce開發過程

1).幫助無開發經驗的資料分析人員,有能力處理大資料

完全符合hive的設計理念,一直強調,無需多言。

2).構建標準化的mapreduce開發過程

這個方面是我們努力的方向。

首先,hive已經用類sql的語法封裝了mapreduce過程,這個封裝過程就是mapreduce的標準化過程。

我們在做業務或者工具時,會針對場景用邏輯封裝,這是第二層封裝是在hive之上的封裝。在第二層封裝時,我們要盡可能多的遮蔽hive的細節,讓介面單一化,低少靈活性,再次精簡hql的語法結構。只滿足我們的系統要求,專用的介面。

在使用二次封裝的介面時,我們已經可以不用知道hive是什麼, 更不用知道hadoop是什麼。我們只需要知道,sql查詢(sql92標準),怎麼寫效率高,怎麼寫可以完成業務需要就可以了。

當我們完成了hive的二次封裝後,我們可以構建標準化的mapreduce開發過程。

通過上圖的思路,我們可以統一企業內部各種應用對於hive的依賴,並且當人員素質公升高後,有可以剝離hive,用更優秀的底層解決方案來替換,如果封裝的介面的不變,甚至替換hive時業務使用都不知道,我們已經替換了hive。

這個過程是需要經歷的,也是有意義的。當我在考慮構建hadoop分析工具時,以hive作為hadoop訪問介面是最有效的。

3).有關hive的運維

因為hive是基於hadoop構建的,簡單地說就是一套hadoop的訪問介面,hive本身並沒有太多的東西,所以運維上面我們注意下面幾個問題就行了。

使用單獨的資料庫儲存元資料

定義合理的表分割槽和鍵

設定合理的bucket資料量

進行表壓縮

定義外部表使用規範

hive安裝及使用攻略

hive匯入10g資料的測試

r利劍nosql系列文章 之 hive

用rhive從歷史資料中提取逆回購資訊

C 學習路線

這是我當初給自己定下c 的路線圖,我也是很浮躁的,定下了如此之好的路線,但是沒有堅持下去,可惜啊。但是好的路線圖是拿出來給大家,讓大家分享吧。c primer accelerated c essential c effective c c 程式設計規範 more effective c except...

C 學習路線

從學習c 到現在已經有四個年頭了,但是從來沒有很深入學習,有人說c 是物件導向的程式語言,但是我在這裡想說的是,c 是乙個多泛型的程式語言,它既可以面向過程,比如我們完全可以用c 寫c的 這是沒問題的,它也是乙個物件導向的語言,它具有物件導向的特徵,可以模擬現實世界中的各種事物 它也是乙個泛型程式語...

wince學習路線

學習wince也是有段時間了,現在我從懵懵懂懂到現在一知半解,我想給自己安排點學習的路線,這樣我就會不想再茫茫的大海上迷失了方向。首先我覺得應該學點應用程式的東西,我們要是做底層的懂是給應用層使用,對應用不了解,你怎麼知道你的底層程式寫的能不能使用呢?通過應用程式要呼叫什麼,要操作什麼,登錄檔了讀了...