使用hive做單詞統計

2021-08-30 14:08:23 字數 1911 閱讀 7923

1、首先建立乙個檔案單詞的檔案,例如a.txt

kk,123,weiwei,123

hlooe,hadoop,hello,ok

h,kk,123,weiwei,ok

ok,h

2、將檔案上傳到hdfs中

hdfs dfs -copyfromlocal ./a.txt /upload/wangwei/a.txt

3、在hive中建立乙個textline的表

create table textlines(text string);

4、在hive中建立乙個words表

create table words(word string);

5、載入資料到textline中

load data inpath '/upload/wangwei/a.txt' into table textline;

6、將textlines中的資料拆分根據','號拆分為單詞,然後存入words表中

insert overwrite  table  words  select explode(split(text,',')) as word from textline;

7、進行單詞統計

20180621更新

1、首先將textline表中的資料炸裂開

2、將上面的結果as表t,然後對錶t進行單詞統計

3、按照統計出來的單詞的順序,從大到小排列,取前面三個值。對上面的count(*)進行排序

4、將統計出來的結果放在hive表中

Hive小練習實現單詞統計

su l hadoop 輸入密碼 vi word.txt 新建乙個word.txt文件,作為我們的資料檔案 輸入一些詞彙,以 為分隔符 hello world hello terese hello myfriend hello everyone esc wq儲存退出 hive 回到hive命令列中 ...

使用map set統計單詞個數

include include include include using namespace std 統計輸入字串中的特定單詞的個數 或者統計除特定單詞之外的個數 int main string word cin word while word 0 cin word for auto it m.b...

mysql 統計單詞 Spark單詞統計示例

在spark字數統計示例中,將找出指定檔案中存在的每個單詞的出現頻率。在這裡,我們使用scala語言來執行spark操作。執行spark字數計算示例的步驟 在此示例中,查詢並顯示每個單詞的出現次數。在本地計算機中建立乙個文字檔案並在其中寫入一些文字。檢查sparkdata.txt檔案中寫入的文字。c...