Hadoop綜合大作業

2022-05-27 18:42:06 字數 1453 閱讀 5653

啟動hive:

將網路爬蟲大作業產生的檔案cgpword.txt上傳至hdfs:

建立原始文件表:

匯入檔案資料:

進行詞頻統計,結果放在表cgp_count裡:

檢視統計結果:

2.用hive對爬蟲大作業產生的csv檔案進行資料分析,寫一篇部落格描述你的分析過程和分析結果。

首先將爬蟲大作業的資料匯出為csv檔案cgpnewss.csv

這是我的csv檔案:

顯示檔案前五行資料

資料集預處理:

刪除第一行記錄, 即欄位名稱

對欄位進行預處理

為每行記錄增加乙個id欄位(讓記錄具有唯一性)

增加乙個作者字段(用來後續進行視覺化分析)

vim建乙個指令碼檔案pre_deal.sh

執行pre_deal,sh指令碼檔案,來對cgpnewss.csv進行資料預處理

檢視生成的user_table.txt

啟動hdfs

在hdfs上建立bigdatacase/dataset資料夾

把user_table.txt上傳到hdfs中

檢視hdfs中的user_table.txt的前十條記錄

啟動hive,然後建立資料庫bdlab

建立外部表,把hdfs中的「/bigdatacase/dataset」目錄下的資料載入到資料倉儲hive中

在hive中檢視資料

檢視其中一列資料

檢視有多少條資料

Hadoop綜合大作業

大資料分析 1.將爬蟲大作業產生的csv檔案上傳到hdfs 3.把hdfs中的文字檔案最終匯入到資料倉儲hive中 想要把資料匯入到資料庫hive中,首先要通過命令把服務全部開啟 把hdfs中的文字檔案最終匯入到資料倉儲hive中 7.查詢在省份廣東的男生 8.查詢城市在汕尾的女生 總結 這次的資料...

Hadoop綜合大作業

作業 於 本次作業是在期中大作業的基礎上利用hadoop和hive技術進行大資料分析 1.將爬蟲大作業產生的csv檔案上傳到hdfs 2.對csv檔案進行預處理生成無標題文字檔案 預處理 使用awk指令碼 com pre deal.sh 稍作處理,分隔開每一列 啟動hdfs 在hdfs上建立 big...

hadoop綜合大作業

hadoop綜合大作業 要求 詞頻統計的截圖如下 上次我所使用的文章是一篇中文文章,所以這次我用了一篇英文文件來進行分詞,大致的流程與上次的操作差不多。這是啟動hadoop的畫面。啟動hive的畫面 這是整篇英文文章讀取出來後的結果。2.用hive對爬蟲大作業產生的csv檔案進行資料分析,寫一篇部落...