Hive實現詞頻統計

2021-08-20 15:07:45 字數 1101 閱讀 1979

hive中提供了類似於sql語言的查詢語言——hiveql,可以通過 hiveql語句快速實現簡單的 mapreduce統計, hive 自身可以將 hiveql 語句快速轉換成 mapreduce 任務進行執行,而不必開發專門的 mapreduce 應用程式,因而十分適合資料倉儲的統計分析。 通過乙個簡單的詞頻統計來初步認識hive

1.本地建立兩個文字檔案

cd /usr/local/hadoop/input

echo 「hello world」> file1.txt

echo 「hello hadoop」> file2.txt

2.將檔案上傳至hdfs中(因為hive的的操作是基於hdfs檔案系統)

./bin/hdfs dfs -mkdir -p /wordcount/input

./bin/hdfs dfs -put /usr/local/hadoop/input/*.txt /wordcount/input

3.在hive下通過如下hiveql語句實現統計功能

create table wordcount(line string);    //表有乙個string型別的字段

load data inpath '/wordcount/input' overwrite into table wordcount ; //把資料匯入到wordcount表

create table word_count as

select word,count(1) as count from

(select explode(split(line,' ')) as word from wordcount) w //通過explode函式把wordcount表變成欄位為word的w表

group by word

order by word;

4.查詢結果

任務03 Hive詞頻統計

在 root目錄下新建word.txt 輸入幾行單詞,單詞之間以空格隔開 hello hadoop hello hdfs hello mapreduce hello hive hello hbase hello pig 對於這個text表,我們如何將其中的每行的單詞進行統計呢?由於一行文字有多個單詞...

Hive 操作與應用 詞頻統計

一 hive用本地檔案進行詞頻統計 1.準備本地txt檔案 2.啟動hadoop,啟動hive 3.建立資料庫,建立文字表同時對映本地檔案的資料到文字表中 4.hql語句進行詞頻統計交將結果儲存到結果表中。5.儲存並且檢視統計結果 二 hive用hdfs上的檔案進行詞頻統計 1.準備電子書或其它大的...

Hive 操作與應用 詞頻統計

一 hive用本地檔案進行詞頻統計 1.準備本地txt檔案 2.啟動hadoop,啟動hive 3.建立資料庫,建立文字表 4.對映本地檔案的資料到文字表中 5.hql語句進行詞頻統計交將結果儲存到結果表中。6.檢視統計結果 二 hive用hdfs上的檔案進行詞頻統計 1.準備電子書或其它大的文字檔...