01 hadoop入門簡介

2021-10-03 18:14:00 字數 980 閱讀 9352

1. 資料體量大。中小型公司的資料量在tb級別,大型公司的資料量是pb級別(京東每天的日誌量達到2.5pb-3pb之間) 

2. 資料的種類和**多樣化,致使處理手段越來越多樣化

3. 資料增長越來越快。網際網路的出現及發展使得資訊傳播速度越來越快

4. 資料的價值密度越來越低。價值密度是所需要的資訊/資訊的總量。單類資料的增長速度小於資訊總量的增長速度

5. 資料的質量/真實性。獲取到的資訊需要進行真偽性的判斷

6. 資料的連通性。各個模組之間的聯絡

7. 其他特徵:動態性、視覺化、合法性

1. hadoop是yahoo!開發的後來貢獻給了apache的一套開源的、可靠的、可擴充套件的(可伸縮的)用於進行分布式計算框架 

2. hadoop之父:doug cutting(道格.卡丁)

3. hadoop的版本管理非常混亂

1. hadoop common:基本模組,支撐其他模組執行 

2. hadoop distributed file system (hdfs™):分布式儲存

3. hadoop yarn:任務排程和集群資源管理

4. hadoop mapreduce:分布式計算

5. hadoop ozone:物件儲存

1. hadoop1.0:包含common、hdfs、mapreduce 

2. hadoop2.0:包含common、hdfs、mapreduce和yarn。從hadoop2.7包含了ozone。從hadoop2.9版本開始,包含了submarine(機器學習深度學習相關的東西 )。hadoop1.0和hadoop2.0不相容

3. hadoop3.0:包含common、hdfs、mapreduce和yarn。從hadoop3.1包含了ozone,在hadoop3.1最新版本中包含了submarine

Hadoop快速入門( Hadoop簡介)

hadoop 核心元件 hadoop 包含以下模組 hadoop common 常見實用工具,用來支援其他 hadoop 模組。hadoop distributed file system hdfs 分布式檔案系統,它提供對應用程式資料的高吞吐量訪問。hadoop yarn 乙個作業排程和集群資源管...

Docker 入門簡介 Study01

1.一款產品從開發到上線,從作業系統,到執行環境,再到應用配置。作為開發 運維之間的協作我們需要關心很多東西,這也是很多網際網路公司都不得不面對的問題,特別是各種版本的迭代之後,不同版本環境的相容,對運維人員都是考驗 docker之所以發展如此迅速,也是因為它對此給出了乙個標準化的解決方案。2.環境...

UDS汽車診斷入門01 簡介

一直想寫乙個關於uds學習的系列文章,卻一直沒有動筆,一來是由於覺得自己學得還不夠透徹,二來想一開始就把文章寫得很完美,然而事實上真正要做到對協議非常透徹得話,又談何容易,協議是死的,人是活的,對於實際專案的不同,可能對協議的實現也是很不相同的,之前有做過這方面的工作,奈何一直覺得自己沒有深入的去理...