大資料應用期末作業

2022-05-14 22:28:16 字數 1220 閱讀 3641

此次作業是把本學期的兩個重要的作業聯合起來——用hdfs去處理爬蟲大作業爬下來的資料。

作業要求:

1.將爬蟲大作業產生的csv檔案上傳到hdfs

2.對csv檔案進行預處理生成無標題文字檔案

3.把hdfs中的文字檔案最終匯入到資料倉儲hive中

4.在hive中檢視並分析資料

實際操作

1.csv檔案上傳到hdfs

2.對csv檔案進行預處理生成無標題,無符號的分開的檔案

3.啟動hadoop

4.啟動live,並在live建立表hkj

5.把zic.csv的內容放到建立的hkj表裡面。

6.完成後就可以對資料進行分析。

7.查詢本次資料的條數(258)

8.查詢是極力推薦的人數(58)

12.看完評價覺得不推薦的(8)

通過這次融合,明白了兩個作業的共同作用。

可惜學藝不精,只爬到了兩百多條。無法對其深入分析,還有很多要繼續去學的。

大資料應用期末大作業

這個作業的要求來自 1.資料匯入。因為我是用自己的資料進行分析,不免就要進行csv匯出,其中用到了pandas,具體 加入到爬蟲資料中即可。這是我自己的excel資料 將檔案另存為txt格式,並為bigdatacase授權。最後查詢資料,同時對以前的資料進行對比。具體的學習可以去處理文字檔案的語言。...

大資料應用期末總作業

本次作業的要求來自 hadoop綜合大作業 要求 1.將爬蟲大作業產生的csv檔案上傳到hdfs 此處選取的是爬蟲大作業 豆瓣上排名前250的電影評價 此處選取的是douban.csv檔案,共計32829條資料。首先,在本地中建立乙個 usr local bigdatacase dataset 資料...

大資料應用期末總評

一 建立乙個執行本案例的目錄bigdatacase dataset 將文字拷貝到dataset目錄下並檢視檔案 二 預處理檔案,將csv生成txt檔案 1 刪除第一行字段 2 預處理字段 每個欄位用 t隔開,這裡有6個字段。1 啟動hdfs 2 在hdfs上建立 bigdatacase datase...