Hadoop綜合大作業

2022-06-04 18:15:13 字數 1296 閱讀 9279

課程評分標準:

考勤 10

平時作業 30

爬蟲大作業 20

hadoop生態安裝與配置 20

hadoop綜合大作業 20

12周演示檢查:《爬蟲大作業》和《hadoop安裝與配置》

hadoop綜合大作業 要求:

下面前2句相當於 start-all.sh    進入hdfs環境

2.用hive對爬蟲大作業產生的csv檔案進行資料分析,寫一篇部落格描述你的分析過程和分析結果。

將資料以csv格式上傳到hdfs

進入檔案路徑並檢視資料前5

將檔案上傳到hdfs上

檢視上傳成功的檔案的前20個資料

進入hive環境

建立資料庫和表 並將檔案複製到表中

檢視資料總條數

根據count檢視資料的前50條

心得:在單詞統計輸出中加多乙個逗號以方便形成csv格式檔案。在hadoop中執行的時候 最後資料顯示的結果全是null,但是目前還不知道是什麼原因。可能是在分詞的時候用上了逗號  使資料成為了,+資料 導致資料無法辨別成整數。

Hadoop綜合大作業

大資料分析 1.將爬蟲大作業產生的csv檔案上傳到hdfs 3.把hdfs中的文字檔案最終匯入到資料倉儲hive中 想要把資料匯入到資料庫hive中,首先要通過命令把服務全部開啟 把hdfs中的文字檔案最終匯入到資料倉儲hive中 7.查詢在省份廣東的男生 8.查詢城市在汕尾的女生 總結 這次的資料...

Hadoop綜合大作業

作業 於 本次作業是在期中大作業的基礎上利用hadoop和hive技術進行大資料分析 1.將爬蟲大作業產生的csv檔案上傳到hdfs 2.對csv檔案進行預處理生成無標題文字檔案 預處理 使用awk指令碼 com pre deal.sh 稍作處理,分隔開每一列 啟動hdfs 在hdfs上建立 big...

hadoop綜合大作業

hadoop綜合大作業 要求 詞頻統計的截圖如下 上次我所使用的文章是一篇中文文章,所以這次我用了一篇英文文件來進行分詞,大致的流程與上次的操作差不多。這是啟動hadoop的畫面。啟動hive的畫面 這是整篇英文文章讀取出來後的結果。2.用hive對爬蟲大作業產生的csv檔案進行資料分析,寫一篇部落...