Hadoop綜合大作業

2022-06-04 04:30:11 字數 2487 閱讀 1707

hadoop綜合大作業 要求:

啟動hadoop:

檢視hdfs上的資料夾:

將本地系統hadoop資料夾裡的小王子英文版故事littleprince.txt上傳至hdfs的hive資料夾中:

hdfs dfs -put ~/hadoop/littleprince.txt hive
檢視hdfs上的littleprince.txt檔案內容:

啟動hive:

建立文件表word_frequency:

匯入檔案內容到表word_frequency:

檢視表word_frequency裡的內容(總共27章):

用hql進行詞頻統計,結果放在表words裡:

檢視統計結果(總共3751 row(s)):

2.用hive對爬蟲大作業產生的csv檔案進行資料分析,寫一篇部落格描述你的分析過程和分析結果。

我爬取的是河源市的所有公交資訊詞頻統計後放到jieba.csv檔案中:

啟動hadoop:

start-all.sh

jps

將本地系統hadoop資料夾裡的jieba.csv上傳至hdfs的hive資料夾中:

cd /usr/local/hadoop

hdfs dfs -put ~/hadoop/jieba.csv hive

檢視hdfs上的jieba.csv檔案前20條資料的內容:

hdfs dfs -cat hive/jieba.csv | head -20
啟動hive:

hive
在資料庫hive裡建立文件表jieba:

show databases;

use hive;

create table jieba(line string);

匯入檔案內容到表jieba:

load data inpath '/user/hadoop/hive/jieba.csv' overwrite into table jieba;
檢視表的總資料條數:

select count(*) from jieba;
檢視表的前20條資料:

select * from jieba limit 20;

Hadoop綜合大作業

大資料分析 1.將爬蟲大作業產生的csv檔案上傳到hdfs 3.把hdfs中的文字檔案最終匯入到資料倉儲hive中 想要把資料匯入到資料庫hive中,首先要通過命令把服務全部開啟 把hdfs中的文字檔案最終匯入到資料倉儲hive中 7.查詢在省份廣東的男生 8.查詢城市在汕尾的女生 總結 這次的資料...

Hadoop綜合大作業

作業 於 本次作業是在期中大作業的基礎上利用hadoop和hive技術進行大資料分析 1.將爬蟲大作業產生的csv檔案上傳到hdfs 2.對csv檔案進行預處理生成無標題文字檔案 預處理 使用awk指令碼 com pre deal.sh 稍作處理,分隔開每一列 啟動hdfs 在hdfs上建立 big...

hadoop綜合大作業

hadoop綜合大作業 要求 詞頻統計的截圖如下 上次我所使用的文章是一篇中文文章,所以這次我用了一篇英文文件來進行分詞,大致的流程與上次的操作差不多。這是啟動hadoop的畫面。啟動hive的畫面 這是整篇英文文章讀取出來後的結果。2.用hive對爬蟲大作業產生的csv檔案進行資料分析,寫一篇部落...