Hadoop(三) 大資料離線計算與實時計算

2021-09-01 11:04:37 字數 1078 閱讀 7154

分享一下我老師大神的人工智慧教程吧。零基礎,通俗易懂!風趣幽默!

1、mapreduce是處理hdfs上的資料

2、mapreduce的思想**是pagerank(搜尋排名),原理是進行分布式計算。

如上圖,網頁跳轉中,訪問網頁3的次數最多,也就是權重最大的為網頁3。比如京東、**中給推薦的商品,就是近期訪問的比較多的商品。

mapreduce的思想是把乙個大任務拆分成多個小任務,再把小任務的結果彙總,得到最後的結果。

3、資料都是歷史資料、資料已經存在(hdfs)

1、特點:資料源源不斷地產生,不停處理資料

2、例子:自來水廠

3、框架:apache  storm、spark streaming

4、格式:storm jar jar檔案 任務的類名 任務的別名

storm jar storm-starter-topologies-1.0.3.jar.jar org.apache.storm.starter.wordcounttopology mywc

1、配置hadoop home

2、hadoop.dll複製到c:\windows\system32

3、配置環境變數

hadoop_home

%hadoop_home%/bin配置到path裡

4、推薦:mrunit(mapreduce unit),類似junit

對hadoop的認識只停留在理論上,更多的操作在精力和時間的允許下有待實踐。

給我老師的人工智慧教程打call!

hadoop大資料與hadoop雲計算

hadoop入門課程 hadoop大資料與hadoop雲計算,hadoop最擅長的事情就是可以高效地處理海量規模的資料,這樣hadoop就和大資料及雲計算結下了不解之緣。本節將先介紹與大資料相關的內容,然後講解hadoop 大資料以及雲計算之間的關係,使讀者從大資料和雲計算的角度來認識hadoop。...

專案三 大資料離線分析平台

具體匯入方法使用下面的連線 注意修改後需要重新部署到tomcat中 隨意點點 用來寫後台的兩種資料埋點 然後測試 hbase test 上述做完就是 資料通過編寫資料埋點 nginx伺服器上面了 現在我們要做的就是通過flume讀取nginx上面的資料存到hdfs source exec chann...

《Hadoop與大資料探勘》 1 2 大資料平台

大資料平台有哪些呢?一般認為大資料平台分為兩個方面,硬體平台和軟體平台。硬體平台一般如open stack amazon雲平台 阿里雲計算等,類似這樣的平台其實做的是虛擬化,即把多台機器或一台機器虛擬化成乙個資源池,然後給成千上萬人用,各自租用相應的資源服務等。而軟體平台則是大家經常聽到的,如had...