大資料征途

2021-07-27 01:35:09 字數 769 閱讀 7458

hadoop而言,通常都需要具備以下技能或知識

a. hadoop分布式集群的平台搭建

b. hadoop分布式檔案系統hdfs的原理理解及使用

c. hadoop分布式運算框架mapreduce的原理理解及程式設計

d. hive資料倉儲工具的熟練應用

e. flume、sqoop、oozie等輔助工具的熟練使用

f. shell/python等指令碼語言的開發能力

重點元件:

hdfs:分布式檔案系統

mapreduce:分布式運算程式開發框架

hive:基於大資料技術(檔案系統+運算框架)的sql資料倉儲工具

hbase:基於hadoop的分布式海量資料庫

zookeeper:分布式協調服務基礎元件

mahout:基於mapreduce/spark/flink等分布式運算框架的機器學習演算法庫

oozie:工作流排程框架

sqoop:資料匯入匯出工具

flume:日誌資料採集框架

1) 資料採集:定製開發採集程式,或使用開源框架flume

2) 資料預處理:定製開發mapreduce程式執行於hadoop集群

3) 資料倉儲技術:基於hadoop之上的hive

4) 資料匯出:基於hadoop的sqoop資料匯入匯出工具

5) 資料視覺化:定製開發web程式或使用kettle等產品

6) 整個過程的流程排程:hadoop生態圈中的oozie工具或其他類似開源產品

週末訓練 征途

記憶體限制 256mib 時間限制 1000ms 標準輸入輸出 題目型別 傳統 評測方式 文字比較 pine 開始了從 s 地到 t 地的征途。從 s 地到 t 地的路可以劃分成 n 段,相鄰兩段路的分界點設有休息站。pine 計畫用 m 天到達 t 地。除第 m 天外,每一天晚上 pine 都必須...

Linux征途 Linux簡介

學習linux我覺得有必要知道linux的由來,簡單說下linux的歷史。linux是由林納斯 本納第克特 托瓦茲開發初始版本,應該說是核心。linux的完善依靠社群的大佬,林納斯大佬發布後,很多的專業人士提出很多的優化方案,在1994年才發布linux 1.0版本。1969 1970 貝爾實驗室開...

開始我的BLOG征途

我決定從今天開始,以此 我的部落格為根據地,認真地寫下我學習的過程和心得體會,記錄下學習過程中的點點滴滴,認真走程式開發之路.以前總疏於還日記,隨著日後的學習,才感到寫日記的重要,人的記憶力是有限的,當時可以理解的,但並一能記住.能記住的並不一定能理解,所以寫下當時的感受和理解是非常重要的.若是寫在...