簡單驗證hadoop的wordcount

2021-06-20 17:05:55 字數 535 閱讀 4856

1、執行hadoop中的wordcount,得出一結果。

2、對於某個指定單詞在ubuntu中的檔案所在目錄下執行:grep  指定單詞  所有統計檔案|wc

實際上就是linux/unix平台的ls指令:

a、 ls | grep filename   查詢檔案名包含filename   的檔案(這其實就是乙個map,找到需要的資料)

b、 ls | grep filename   | wc -l 計算上述指令查詢檔案個數(這其實就是乙個reduce,對找到資料進行彙總聚合)

又如sql中的select 語句:

c、 select * from table t where t.name like 'tht%'  (這其實就是乙個map,找到需要的資料)

d、 select count(*) from table t where t.name like 'tht%' (這其實就是乙個reduce,對找到資料進行彙總聚合)

下面這個sql的例子在hive中就是通過mapreduce實現的,c為乙個map任務 d為乙個reduce任務

hadoop簡單了解

四大模組 三大核心 hdfs mapreduce yarn 生態圈 分布式系統 hdfs檔案系統的介紹 分而治之 將大檔案 大批量檔案,分布式存放在大量伺服器上,以便於採取分而治之的方式對海量資料進行運算分析 重點概念 檔案切塊副本存放元資料 namenode提供元資料服務,元資料資訊要載入到記憶體...

Hadoop簡單回憶

hadoop 主要就是用來解決大資料的儲存和計算問題的!那麼什麼是大資料那?資料量級很大的應用處理,資料集在tb及以上,或日增量在 g的資料!所以大資料的特點便是4v,何為4v?1 vomule 大量 資料量大至少為tb或日增gb以上的 2 variety 多樣 資料多樣,結構化資料,非結構化資料,...

Hadoop 簡單介紹

概述 hadoop是apache公司旗下乙個分布式基礎架構,主要解決大資料儲存和計算問題,是谷歌公司三篇 的具體實現 gfs hadoop,mapreduce mr,bigtable hbase 兩個版本 1.x版本的mapreduce既負責計算又負責資源的排程。2.x版本將mapreduce的資源...