Hadoop綜合大作業

2022-07-18 12:15:16 字數 1209 閱讀 9276

準備上傳的資料夾,新建資料夾bigdatacase

獲取bigdatacase資料夾的許可權 並再裡面新建dataset資料夾

檢視我爬取資料的前5條資料

這是pre_deal.sh配置檔案,因為我獲取了27列的資料,所以打了那麼多。

預處理成功,生成了user_table.txt檔案

檢視user_table.txt前面的資料

檢視bigdatacase檔案

hdfs上傳資料夾/bigdatacase/dataset

檢視hdfs上傳的user_table.txt檔案的前10條資料

建立資料庫bdlab

使用資料庫bdlab

總結:前面都很順利,utf-8也設定好了,但是在hive中無法建立資料庫表,不知道什麼原因,重新安裝hive和mysql都無法成功,hive和mysql的安裝配置都是正常的。

Hadoop綜合大作業

大資料分析 1.將爬蟲大作業產生的csv檔案上傳到hdfs 3.把hdfs中的文字檔案最終匯入到資料倉儲hive中 想要把資料匯入到資料庫hive中,首先要通過命令把服務全部開啟 把hdfs中的文字檔案最終匯入到資料倉儲hive中 7.查詢在省份廣東的男生 8.查詢城市在汕尾的女生 總結 這次的資料...

Hadoop綜合大作業

作業 於 本次作業是在期中大作業的基礎上利用hadoop和hive技術進行大資料分析 1.將爬蟲大作業產生的csv檔案上傳到hdfs 2.對csv檔案進行預處理生成無標題文字檔案 預處理 使用awk指令碼 com pre deal.sh 稍作處理,分隔開每一列 啟動hdfs 在hdfs上建立 big...

hadoop綜合大作業

hadoop綜合大作業 要求 詞頻統計的截圖如下 上次我所使用的文章是一篇中文文章,所以這次我用了一篇英文文件來進行分詞,大致的流程與上次的操作差不多。這是啟動hadoop的畫面。啟動hive的畫面 這是整篇英文文章讀取出來後的結果。2.用hive對爬蟲大作業產生的csv檔案進行資料分析,寫一篇部落...