Hadoop學習筆記(1)

2022-09-07 02:06:10 字數 1124 閱讀 2989

doug cutting

lucene(索引引擎)---nutch(搜尋data抓取)---hadoop

1997:lucene

2003:gfs

2004:ndfs\mapreduce\nutch

2006: (yahoo! facebook newyorktimes) hadoop

2008: hbase zookeeper  mahout

2009: pig\ hive

hadoop生態系統:

common、hdfs、mapreduce

**ro:序列化;

zookeeper:統一一致性;

hive:資料倉儲;

hbase:bigtable 結構化資料

mahout:資料探勘

x-rtime:社會網路

sqoop(sql to hadoop)

oozie:工作流引擎(有向無環)

pig、crosslow、ivory、chukwa+flume

j**a語言關鍵字:**同步synchronized,見:

jaxp(j**a api for xml processing)

sax:解析大檔案

dom:一次性讀入記憶體

靜態方法,如何訪問非靜態方法或元素:通過靜態媒介

hadoop原始碼關於配置檔案的類中,包含兩類resource和defaultresourses分別用來載入資源和預設資源(資源代表配置檔案),載入後並非立刻將配置檔案中的資源載入到properties和finalparameters中,而是通過呼叫loadresource。

adddefaultresource通過靜態成員registry(記錄了系統內的所有configuration物件,每個configuration物件在建立初就把自己新增到registry中)來載入。

hadoop的配置檔案支援xinclude機制:配置文件中包含其他的配置文件。

hadoop序列化框架(hadoop **ro),apache thrift,google protocol buffer等。

hadoop支援的壓縮格式包括:gzip zip bzip lzo

hadoop通過抽象工廠方法提供可擴充套件的框架

hadoop學習筆記1

hadoop是什麼?是乙個開源的分布式計算平台。解決兩個問題 1 海量資料的儲存 hdfs 分布式檔案系統 2 海量資料的分析 mapreduce 平行計算框架,離線 hadoop生態圈 hadoop ecosystem map hadoop核心 hdfs,mapreduce,yarn yet an...

Hadoop學習筆記1 初識Hadoop

資料越來越多,資料的增長越來越快,儲存和分析這些資料成為挑戰!當資料量逐漸變大時,單個磁碟的讀寫速度成為瓶頸。解決辦法是,將資料分散儲存,通過並行讀取提高讀寫資料。要達到這種目的,面臨的2個問題 hadoop的hdfs和mapreduce為這兩個問題提供了解決方案。為什麼不能用關係型資料庫 更多磁碟...

hadoop學習筆記1 概述

hdfs負責儲存 yarn負責排程和資源管理 mapreduce基於yarn 分布式儲存 計算 hadoop可以儲存海量資料,並且對資料進行統計分析,比如通過hive sql 類似於普通sql hadoop生態圈是很大的,想學好大資料,要學的東西特別多,目前從它三大元件開始 別的軟體圖示都是動物,只...