第八次作業 Hive 操作與應用 詞頻統計

2022-07-11 06:06:10 字數 1050 閱讀 8694

一、hive用本地檔案進行詞頻統計

1.準備本地txt檔案 

2.啟動hadoop,啟動hive

3.建立資料庫,建立文字表 

4.對映本地檔案的資料到文字表中

5.hql語句進行詞頻統計交將結果儲存到結果表中。

6.檢視統計結果

二、hive用hdfs上的檔案進行詞頻統計

1.準備電子書或其它大的文字檔案

2.將文字檔案上傳到hdfs上

3.建立文字表

4.對映hdfs中的檔案資料到文字表中

5.hql語句進行詞頻統計交將結果儲存到結果表中

6.檢視統計結果

第八次 Hive 操作與應用 詞頻統計

一 hive用本地檔案進行詞頻統計 1.準備本地txt檔案 echo hadoop hbase f1.txt echo hadoop hive f2.txt 2.啟動hadoop,啟動hive 3.建立資料庫,建立文字表 use hive 建立資料庫,選擇資料庫 4.對映本地檔案的資料到文字表中 5...

第八次作業

練習題 1 怎麼查出通過 from xx import xx導 的可以直接調 的 法?在test package資料夾中建立 init py檔案,裡邊什麼都不需要編輯。在 中把test package的檔案的路徑加入到python直譯器可以搜尋到的路徑列表中,這裡就用到了python的包sys模組 ...

第八次作業

用python實現k均值演算法,鳶尾花花瓣長度資料做聚類並用散點圖顯示。import numpy as np 隨機生成乙個陣列 x np.random.randint 1,100,20,1 y np.zeros x.shape 0 dtype int k 3iris length 1.4,1.4,1...