Hive實現詞頻統計

hive中提供了類似於sql語言的查詢語言——hiveql，可以通過 hiveql語句快速實現簡單的 mapreduce統計， hive 自身可以將 hiveql 語句快速轉換成 mapreduce 任務進行執行，而不必開發專門的 mapreduce 應用程式，因而十分適合資料倉儲的統計分析。通過乙個簡單的詞頻統計來初步認識hive

1.本地建立兩個文字檔案

cd /usr/local/hadoop/input echo 「hello world」> file1.txt echo 「hello hadoop」> file2.txt

2.將檔案上傳至hdfs中（因為hive的的操作是基於hdfs檔案系統）

./bin/hdfs dfs -mkdir -p /wordcount/input ./bin/hdfs dfs -put /usr/local/hadoop/input/*.txt /wordcount/input

3.在hive下通過如下hiveql語句實現統計功能

create table wordcount(line string);    //表有乙個string型別的字段
load data inpath '/wordcount/input' overwrite into table wordcount ; //把資料匯入到wordcount表
create table word_count as 
select word,count(1) as count from 
(select explode(split(line,' ')) as word from wordcount) w //通過explode函式把wordcount表變成欄位為word的w表
group by word
order by word;

4.查詢結果

任務03 Hive詞頻統計

在 root目錄下新建word.txt 輸入幾行單詞，單詞之間以空格隔開 hello hadoop hello hdfs hello mapreduce hello hive hello hbase hello pig 對於這個text表，我們如何將其中的每行的單詞進行統計呢？由於一行文字有多個單詞...

Hive 操作與應用詞頻統計

一 hive用本地檔案進行詞頻統計 1.準備本地txt檔案 2.啟動hadoop，啟動hive 3.建立資料庫，建立文字表同時對映本地檔案的資料到文字表中 4.hql語句進行詞頻統計交將結果儲存到結果表中。5.儲存並且檢視統計結果二 hive用hdfs上的檔案進行詞頻統計 1.準備電子書或其它大的...

Hive 操作與應用詞頻統計

一 hive用本地檔案進行詞頻統計 1.準備本地txt檔案 2.啟動hadoop，啟動hive 3.建立資料庫，建立文字表 4.對映本地檔案的資料到文字表中 5.hql語句進行詞頻統計交將結果儲存到結果表中。6.檢視統計結果二 hive用hdfs上的檔案進行詞頻統計 1.準備電子書或其它大的文字檔...

Hive實現詞頻統計

任務03 Hive詞頻統計

Hive 操作與應用 詞頻統計

Hive 操作與應用 詞頻統計

相關推薦

Hive 操作與應用詞頻統計

Hive 操作與應用詞頻統計