大資料應用期末總評

一、建立乙個執行本案例的目錄bigdatacase、dataset：

將文字拷貝到dataset目錄下並檢視檔案：

二、預處理檔案，將csv生成txt檔案：

1、刪除第一行字段：

2、預處理字段：

每個欄位用\t隔開，這裡有6個字段。

1、啟動hdfs:

2、在hdfs上建立/bigdatacase/dataset資料夾，將檔案上傳：

3、啟動mysql：

4、在hive中建立資料庫dblab：

5、在把hdfs中的「/bigdatabase/dataset」目錄下的資料載入到了資料倉儲的hive中的：

（在這裡遇到了乙個問題就是，如果出現以下情況，則修改下欄位名稱，這裡我將date改成riqi就可以了）：

6、在hive中檢視資料，查詢表的前10條記錄：

四、hive資料分析：

2、查詢投票數前20的評價程度：

查詢結果顯示大部分還是呈「推薦」趨勢的。

3、查詢評價為「力薦」的數量：

4、查詢評價為「推薦」的數量：

5、查詢評價為「較差」的數量：

6、查詢評價為「很差」的數量：

通過3、4、5、6的查詢可以得出推薦和力薦的總數量達1442，佔總比的72%，較差和很差的數量佔總數的3.1%，說明大部分還是給了好評居多。

7、查詢前10的使用者所在的城市：

9、查詢北京的使用者評價的內容：

10、查詢上海、的使用者評價的內容：

11、查詢廣州的使用者評價的內容：

通過9、10、11的分析得出一線城市使用者的評價可看出高票評價觀點鮮明，好評的居多，但是有部分不認同和反對，說明評價還有有一定的客觀性的。

四、總結

分析結果：針對在豆瓣爬取的《三體》短評，通過城市、時間、評價星級等各方面進行分析得出：短評大部分還是比較好的，短評有好有壞，但好評居多，說明此作品具有一定的可讀性和可觀性。

通過本案例，了解了hdfs和hive資料倉儲的大資料分析基本的原理和操作，在海量資料處理方面，hadoop在資料容納和分析方面有著先天的優勢，不過本案例的資料還不夠多體現不出。hive倉庫分析其實也有很多函式可以進行大資料的處理和分析，這裡也進行了簡單的資料庫查詢。總體有待完善。

大資料應用期末總評

作業要求一課程評分標準分數組成考勤 10 平時作業 30 爬蟲大作業 25 hadoop生態安裝與配置 10 分布式檔案系統hdfs 分布式平行計算mapreduce hadoop綜合大作業 25 評分標準難易程度資料量二 17周演示檢查爬蟲大作業和 hadoop綜合大作業三 ha...

大資料應用期末總評

一課程評分標準分數組成考勤 10 平時作業 30 爬蟲大作業 25 hadoop生態安裝與配置 10 分布式檔案系統hdfs 分布式平行計算mapreduce hadoop綜合大作業 25 評分標準難易程度資料量二 17周演示檢查爬蟲大作業和 hadoop綜合大作業三 hadoop綜...

大資料應用期末總評

作業要求 hadoop綜合大作業要求 1.將爬蟲大作業產生的csv檔案上傳到hdfs 2.對csv檔案進行預處理生成無標題文字檔案 3.把hdfs中的文字檔案最終匯入到資料倉儲hive中轉為txt檔案上傳到hdfs上建立資料庫 4.在hive中檢視並分析資料 5.用hive對爬蟲大作業產生的進...

大資料應用期末總評

大資料應用期末總評

大資料應用期末總評

大資料應用期末總評

相關推薦