hadoop初識筆記

2022-07-30 16:57:08 字數 542 閱讀 6494

apache hadoop本身是乙個框架,它可以用簡單的程式設計模型在計算機集群中對大型資料集進行分布式處理。它可以被設計成單個機器或成千上萬臺機器的集群,實現提供計算和儲存服務。

apache開源軟體**會開發了執行在大規模普通伺服器上,用於大資料儲存、計算、分析的分布式儲存系統和分布式運算框架——hadoop。hadoop的兩大核心如下。

·hdfs(hadoop distributed file system,分布式儲存系統):是hadoop中的核心元件之一,除了可以儲存海量資料,還具有高可靠性、高擴充套件性和高吞吐率的特點。

·mapreduce:屬於分布式計算框架,一般用於對海量資料的計算,它的特點是易於程式設計、高容錯和高擴充套件等優點。另外,mapreduce可以獨立於hdfs使用。

總結來說,hadoop中的核心hdfs為海量資料提供了儲存,而mapreduce則為海量資料提供了計算服務。通過hadoop可以快速搭建自己的分布式儲存系統和分布式運算系統,它可以縮短處理資料的時間,同時可以盡量在低成本的情況下完成資料的分析與挖掘。這裡說的低成本,主要是因為hadoop可以基於廉價的普通pc機搭建集群。

Hadoop學習筆記 Hadoop初識

序言 資訊化發展到當今,網際網路的資料量是不斷地增加,那麼如何很好的處理以及利用這些資料可能是未來的乙個發展方向,這也之所以產生了各種平台的雲計算。對於網際網路而言,大資料量可分為兩種 第 一 大訪問量請求 第 二 大資料量處理。大訪問量請求這個事應用端應該思考的問題,如何很好的處理大的訪問量,如何...

Hadoop學習筆記1 初識Hadoop

資料越來越多,資料的增長越來越快,儲存和分析這些資料成為挑戰!當資料量逐漸變大時,單個磁碟的讀寫速度成為瓶頸。解決辦法是,將資料分散儲存,通過並行讀取提高讀寫資料。要達到這種目的,面臨的2個問題 hadoop的hdfs和mapreduce為這兩個問題提供了解決方案。為什麼不能用關係型資料庫 更多磁碟...

Hadoop學習筆記(一)初識Hadoop

研究生階段將要接觸大資料和深度學習的知識,在網上找的教程大多一上來就是一堆名詞又解釋不清楚,對新手相當不友好,在慕課網看到乙個教程,利用部落格記錄下自己學習的過程。關於hadoop 最好的介紹莫過於官網的文件,hadoop的官網如下,我們一句一句來看看hadoop官網是怎麼介紹的。the apach...