《Hadoop與大資料探勘》 1 2 大資料平台

2021-09-23 14:44:15 字數 1336 閱讀 6664

大資料平台有哪些呢?

一般認為大資料平台分為兩個方面,硬體平台和軟體平台。硬體平台一般如open-stack、amazon雲平台、阿里雲計算等,類似這樣的平台其實做的是虛擬化,即把多台機器或一台機器虛擬化成乙個資源池,然後給成千上萬人用,各自租用相應的資源服務等。而軟體平台則是大家經常聽到的,如hadoop、mapreduce、spark等,也可以狹義理解為hadoop生態圈,即把多個節點資源(可以是虛擬節點資源)進行整合,作為乙個集群對外提供儲存和運算分析服務。

hadoop生態圈大資料平台,可以大概分為3種:apache hadoop(原生開源hadoop)、hadoop distribution(hadoop發行版)、big data suite(大資料開發套件)。apache hadoop 是原生的,即官網提供的,只包含基本的軟體;hadoop distribution是一些軟體**商提供的,具有的功能相對多,這個版本有收費版也有免費版,使用者可選;而大資料開發套件則是一些大公司提供的整合方案,提供的功能更多,但是相應的也比較貴。

apache hadoop是開源的,使用者可以直接訪問或更改**。它是完全分布式的,配置包含使用者許可權、訪問控制等,再加上多種生態系統軟體支援,比較複雜。這裡涉及版本不相容性問題。所以該版本比較適合學習並理解底層細節或hadoop詳細配置、調優等。

hadoop distribution版本簡化了使用者的操作以及開發任務,比如可以一鍵部署等,而且有配套的生態圈支援以及管理監控功能,如業內廣泛使用的hdp、cdh、mapr等平台。cdh是最成型的發行版本,擁有最多的部署案例,而且提供強大的部署、管理和監控工具,其開發公司cloudera貢獻了自己的可實時處理大資料的impala專案。hdp是100%開源apache hadoop的唯一提供商,其開發公司 hortonworks開發了很多增強特性並提交至核心主幹,並且hortonworks為入門者提供了乙個非常好的、易於使用的沙盒。mapr為了獲取更好的效能和易用性而支援本地unix檔案系統而不是hdfs(使用非開源的元件),並且可以使用本地unix命令來代替hadoop命令。除此之外,mapr還憑藉諸如快照、映象或有狀態的故障恢復之類的高可用性特性來與其他競爭者相區別。當需要乙個簡單的學習環境時,就可以選用這個版本,當然,針對一些企業也可以選擇這個版本的收費版,也是有很多軟體支援的。

big data suite(大資料套件)是建立在eclipse之類的ide之上的,其附加的外掛程式極大地方便了大資料應用的開發。使用者可以在自己熟悉的開發環境之內置立、構建並部署大資料服務,並且生成所有的**,從而做到不用編寫、除錯、分析和優化mapreduce**。大資料套件提供了圖形化的工具來為你的大資料服務進行建模,所有需要的**都是自動生成的,只需配置某些引數即可實現複雜的大資料作業。當企業使用者需要不同的資料來源整合、自動**生成或大資料作業自**形化排程時,就可以選擇使用大資料套件。

《Hadoop與大資料探勘》 1 3 本章小結

通過本章的介紹,相信大家對大資料有了乙個比較感性的認識,那接下來學習什麼呢?接下來的內容就是大資料技術涉及的相關技術。在本書中,大資料技術僅指軟體層面,比如使用hadoop生態圈軟體等,而非硬體平台。這裡的硬體平台主要指的是把所有硬體資源整合,使其虛擬化乙個資源池的概念,涉及的技術有openstac...

hadoop大資料與hadoop雲計算

hadoop入門課程 hadoop大資料與hadoop雲計算,hadoop最擅長的事情就是可以高效地處理海量規模的資料,這樣hadoop就和大資料及雲計算結下了不解之緣。本節將先介紹與大資料相關的內容,然後講解hadoop 大資料以及雲計算之間的關係,使讀者從大資料和雲計算的角度來認識hadoop。...

大資料工具Hadoop快速入門13大資料測試

大資料是不能使用傳統計算技術處理的大型資料集的集合。這些資料集的測試涉及各種工具,技術和框架。大資料涉及資料建立,儲存,檢索和分析,數量,多樣性和速度都要求非常高。更多的是驗證其資料處理而不是單個功能,效能和功能測試 是關鍵都很重要。使用集群和其他支援元件來驗證tb級資料的處理。它需要高水平的測試技...