大資料應用期末總評

2022-04-09 23:48:08 字數 1692 閱讀 1526

作業要求:

一、課程評分標準:

分數組成:

考勤 10

平時作業 30

爬蟲大作業 25

hadoop生態安裝與配置 10

分布式檔案系統hdfs

分布式平行計算mapreduce

hadoop綜合大作業 25

評分標準:

難易程度

資料量二、17周演示檢查:《爬蟲大作業》和《hadoop綜合大作業》

三、hadoop綜合大作業 要求:

1.將爬蟲大作業產生的csv檔案上傳到hdfs

2.對csv檔案進行預處理生成無標題文字檔案

3.把hdfs中的文字檔案最終匯入到資料倉儲hive中

4.在hive中檢視並分析資料

5.用hive對爬蟲大作業產生的進行資料分析,寫一篇部落格描述你的分析過程和分析結果。(10條以上的查詢分析)

四、材料提交方式及日期

每人提交乙個資料夾,以學號姓名命名

個人資料夾裡包含三個作業的材料:

**結果

部落格文章

請在2019/06/21 日期之前提交給學委

學委收齊後,整理燒錄一張光碟交給老師。空白光碟可找老師領取

建乙個班級資料夾,裡面放乙個乙個同學的資料夾,都不要壓縮

1.將爬蟲大作業產生的csv檔案上傳到hdfs

2.對csv檔案進行預處理生成無標題文字檔案

3.把hdfs中的文字檔案最終匯入到資料倉儲hive中

4.在hive中檢視並分析資料

5.用hive對爬蟲大作業產生的進行資料分析,寫一篇部落格描述你的分析過程和分析結果。(10條以上的查詢分析)

(1)檢視排名前十的資料

(2)檢視資料的總數量

(3)檢視有多少不重複id的數量

(8)檢視評分為5的使用者數

(9)檢視使用者省份為上海的使用者數

(10)檢視使用者省份為廣州的使用者數

爬取的資料截圖

大資料應用期末總評

一 建立乙個執行本案例的目錄bigdatacase dataset 將文字拷貝到dataset目錄下並檢視檔案 二 預處理檔案,將csv生成txt檔案 1 刪除第一行字段 2 預處理字段 每個欄位用 t隔開,這裡有6個字段。1 啟動hdfs 2 在hdfs上建立 bigdatacase datase...

大資料應用期末總評

一 課程評分標準 分數組成 考勤 10 平時作業 30 爬蟲大作業 25 hadoop生態安裝與配置 10 分布式檔案系統hdfs 分布式平行計算mapreduce hadoop綜合大作業 25 評分標準 難易程度 資料量二 17周演示檢查 爬蟲大作業 和 hadoop綜合大作業 三 hadoop綜...

大資料應用期末總評

作業要求 hadoop綜合大作業 要求 1.將爬蟲大作業產生的csv檔案上傳到hdfs 2.對csv檔案進行預處理生成無標題文字檔案 3.把hdfs中的文字檔案最終匯入到資料倉儲hive中 轉為txt檔案上傳到hdfs上 建立資料庫 4.在hive中檢視並分析資料 5.用hive對爬蟲大作業產生的進...