Hadoop綜合大作業

2022-06-02 05:54:10 字數 1187 閱讀 2129

1、啟動hadoop

2、hdfs上建立資料夾並檢視

3、上傳英文詞頻統計文字至hdfs

4、啟動hive

5、建立novel原始文件表

6、匯入檔案內容到表novel並檢視

7、用hql進行詞頻統計,結果放在表k_word_count裡

8、檢視統計結果

二、用hive對產生的csv檔案進行資料分析,寫一篇部落格描述你的分析過程和分析結果。

1、產生csv檔案一覽圖

2、刪除檔案的第一條資料並檢視

3、上傳檔案到hdfs

4、啟動hive

5、匯入檔案內容到表到docs中並檢視

6、總結

由於我爬的是學校的新聞,是乙個新聞類**,可以用來分析的資料並不多,所以只爬取了新聞標題、時間等資訊。

通過這個大作業,我對如何進行大資料分析有一定的了解,對使用hadoop,hive等也有一定的了解。

Hadoop綜合大作業

大資料分析 1.將爬蟲大作業產生的csv檔案上傳到hdfs 3.把hdfs中的文字檔案最終匯入到資料倉儲hive中 想要把資料匯入到資料庫hive中,首先要通過命令把服務全部開啟 把hdfs中的文字檔案最終匯入到資料倉儲hive中 7.查詢在省份廣東的男生 8.查詢城市在汕尾的女生 總結 這次的資料...

Hadoop綜合大作業

作業 於 本次作業是在期中大作業的基礎上利用hadoop和hive技術進行大資料分析 1.將爬蟲大作業產生的csv檔案上傳到hdfs 2.對csv檔案進行預處理生成無標題文字檔案 預處理 使用awk指令碼 com pre deal.sh 稍作處理,分隔開每一列 啟動hdfs 在hdfs上建立 big...

hadoop綜合大作業

hadoop綜合大作業 要求 詞頻統計的截圖如下 上次我所使用的文章是一篇中文文章,所以這次我用了一篇英文文件來進行分詞,大致的流程與上次的操作差不多。這是啟動hadoop的畫面。啟動hive的畫面 這是整篇英文文章讀取出來後的結果。2.用hive對爬蟲大作業產生的csv檔案進行資料分析,寫一篇部落...