大資料應用期末總評

2022-07-18 12:21:09 字數 1957 閱讀 2597

作業**於:

hadoop綜合大作業 要求:

1.將爬蟲大作業產生的csv檔案上傳到hdfs

把資料儲存在dataset目錄下

在本地檢視資料集

2.對csv檔案進行預處理生成無標題文字檔案

刪除檔案第一行資料

3.把hdfs中的文字檔案最終匯入到資料倉儲hive中

在hdfs上建立資料夾

把資料檔案上傳到hdfs中

檢視前10條資料

4.在hive中檢視並分析資料

建立資料庫

檢視資料

5.用hive對爬蟲大作業產生的進行資料分析,寫一篇部落格描述你的分析過程和分析結果。(10條以上的查詢分析)

(1)查詢資料量

作業**於:

作業要求:

以」./bin/dfs dfs」開頭的shell命令方式

在hdfs中為hadoop使用者建立乙個使用者目錄(hadoop使用者)

在使用者目錄下建立乙個input目錄

在hdfs的根目錄下建立乙個名稱為input的目錄

刪除hdfs根目錄中的「input」目錄

在該檔案裡面可以隨意輸入一些單詞,如學號

把本地檔案系統的「/home/hadoop/姓名.txt」上傳到hdfs中的當前使用者目錄的input目錄下

檢視一下檔案是否成功上傳到hdfs中

檢視hdfs中的姓名.txt這個檔案的內容

把檔案從hdfs中當前使用者目錄的input目錄拷貝到hdfs根目錄

從hdfs根目錄刪除這個檔案

作業**於:

作業要求:

以」./bin/dfs dfs」開頭的shell命令方式

在hdfs中為hadoop使用者建立乙個使用者目錄(hadoop使用者)

在使用者目錄下建立乙個input目錄

在hdfs的根目錄下建立乙個名稱為input的目錄

刪除hdfs根目錄中的「input」目錄

在該檔案裡面可以隨意輸入一些單詞,如學號

把本地檔案系統的「/home/hadoop/姓名.txt」上傳到hdfs中的當前使用者目錄的input目錄下

檢視一下檔案是否成功上傳到hdfs中

檢視hdfs中的姓名.txt這個檔案的內容

把檔案從hdfs中當前使用者目錄的input目錄拷貝到hdfs根目錄

從hdfs根目錄刪除這個檔案

大資料應用期末總評

一 建立乙個執行本案例的目錄bigdatacase dataset 將文字拷貝到dataset目錄下並檢視檔案 二 預處理檔案,將csv生成txt檔案 1 刪除第一行字段 2 預處理字段 每個欄位用 t隔開,這裡有6個字段。1 啟動hdfs 2 在hdfs上建立 bigdatacase datase...

大資料應用期末總評

作業要求 一 課程評分標準 分數組成 考勤 10 平時作業 30 爬蟲大作業 25 hadoop生態安裝與配置 10 分布式檔案系統hdfs 分布式平行計算mapreduce hadoop綜合大作業 25 評分標準 難易程度 資料量二 17周演示檢查 爬蟲大作業 和 hadoop綜合大作業 三 ha...

大資料應用期末總評

一 課程評分標準 分數組成 考勤 10 平時作業 30 爬蟲大作業 25 hadoop生態安裝與配置 10 分布式檔案系統hdfs 分布式平行計算mapreduce hadoop綜合大作業 25 評分標準 難易程度 資料量二 17周演示檢查 爬蟲大作業 和 hadoop綜合大作業 三 hadoop綜...