hive安裝部署及初步使用

hive是將mapreduce這個過程進行了封裝，現在只需要寫hsql語句就可以實現mapreduce，所以hive的執行環境就是hadoop

下面的hive安裝部署是在hadoop集群已經安裝好並且能夠執行的前提下，如果沒有可以參考我之前的博文，hadoop的偽分布式和分布式都有詳細的步驟介紹

hive安裝部署:

我這裡的hive是1.2.1版本的，2.0以上的版本和以下的版本底層不一樣，2.0.以下的是對mapreduce進行封裝，2.0以上的版本是對spark進行的封裝，所以2.0以上的版本會更快，使用者對於不同的版本不會感到有什麼不同，但是這裡還沒有學到spark，所以我就安裝2.0一下的版本了

1.向宿柱機上傳hive的壓縮包，解壓

將上面中的兩個修改為你自己的安裝目錄

3.在hdfs中建立tmp和/user/hive/warehouse(如果有就不用建立了),並賦予他們許可權

進入到hadoop目錄下

bin/hdfs dfs -mkdir -p /user/hive/warehouse

bin/hdfs dfs -chmod g+w /tmp

bin/hdfs dfs -chmod g+w /user/hive/warehouse

4.啟動hive

進入到hive安裝目錄下

bin/hive

這裡第一次啟動會有點慢

啟動時可能會報jline這個jar包衝突，這是因為hadoop中也有這個jar包，但是版本太老，解決辦法就是進入到hadoop-2.5.0/share/hadoop/yarn/lib下，刪除兩個jline的jar包，然後重啟hive就不會報錯了

這時候就可以使用hsql語句了，非常簡單

hive初步使用:

1.首先要建立一張表

create table student(id int,name string) row format delimited fields terminated by ',';

上邊的語句是建立表並對資料進行格式化和指明欄位的分隔符

2.載入資料到這張表裡面

在/opt/hive-1.2.2/下建立data目錄用來存放資料，在裡面建立乙個student.txt,並錄入幾條資料

load data local inpath '/opt/hive-1.2.2/data/student.txt' into table student;

3.測試

這裡可以看出執行語句的時候並沒有走mapreduce程式，而是直接就輸出結果了，說明hive不是完全走mapreduce的，這樣可以提高執行效率，畢竟mapreduce需要執行的時間比較久