採用Hadoop的關鍵 小處開始大資料之旅

2021-09-23 01:29:05 字數 1424 閱讀 4347

文章講的是採用hadoop的關鍵 小處開始大資料之旅

作為大資料技術的典範,hadoop一直為採用大資料的企業祝福並詛咒著。hadoop功能強大,卻非常複雜,這使得很多企業都寧願等待更容易的東西問世,再推出大資料專案。

等待已經結束。hadoop在穩步前進,來自諸如hortonworks和cloudera等廠商顯著的易用性增強,使得hadoop的學習曲線已經減少了一半。企業正越來越多擁抱大資料和hadoop,目的是從基本的etl工作負載遷移到先進的資料分析。

但更多人不知道的是,企業使用hadoop處理大資料的訣竅,其實就是從小處著手。

小?這似乎是與hadoop關係不大的乙個詞。但它完全符合大資料的現實。我們往往談論hadoop在pb級和zb級資料的優勢,但大部分企業其實並不具備pb級規模的問題。至少,他們現在還不清楚怎麼去管理這種級別的問題。

相反,大資料諮詢公司newvantage partners的一項調查顯示,企業首先關注的是掌握新型別的非結構化資料。gartner證實了這一點,它指出:「許多組織發現大資料的多樣性比大體量或實時性的挑戰更大。」

因此,聰明的hadoop廠商正在修正他們的策略,幫助企業從小規模部署著手,並從那裡成長。hortonworks企業戰略副總裁shaun connolly在接受記者採訪時表示:

「最終部署更多的應用和新的資料型別導致更廣泛的現代化資料架構。但成功的客戶開始從特定型別的資料釋放價值,然後沖洗,並從那裡重複他們的旅程。」

對於證明hadoop的價值,從小的、可衡量的專案啟動,這是乙個偉大的方式,不強迫企業在前期就吞下整個大象。這是乙個聰明的策略,讓強大的技術可以很容易地被採納。

這樣一來,hadoop正在變**們真正想要談論的「房間裡的大象」。雖然更多的人都在談論大資料,但實際推出重要的大資料專案的組織要少得多,gartner強調,只有8%的企業已實際部署大資料專案,儘管64%的企業宣稱他們打算這麼做。這些公司看重的是hadoop大資料專案帶來的實質性增長,可實現的商業價值,而不是hadoop的炒作。

事實上,今天大多數大資料專案,往往以現有用例的增量改進為重點,例如,更好地了解客戶的需求,使流程更加高效,進一步降低成本,或更好地檢測風險。對於所有的關於大大改變乙個企業的業務的談論,大部分的大資料以及由此延伸的大多數的hadoop的部署,重點是逐步改進,而不是徹底改變的專案。

這是有道理的。企業首先小步驟地採用hadoop實施可以實現的專案,然後掌握該技術,然後再做大。

在2023年,我們將看到hadoop被加速採用。hortonworks的connolly和cloudera的mike olson都看到了他們的業務在2023年獲得迅速的發展,且最後兩個季度的發展節奏更快。這樣的加速度反映了他們對營銷資訊的改善,已圍繞企業如何更容易地從hadoop真正獲得價值,同時也表明,企業從hadoop獲得價值的門檻已經降低。

大資料時代之hadoop 了解hadoop資料流

了解hadoop,首先就需要先了解hadoop的資料流,就像了解servlet的生命週期似的。hadoop是乙個分布式儲存 hdfs 和分布式計算框架 mapreduce 但是hadoop也有乙個很重要的特性 hadoop會將mapreduce計算移動到儲存有部分資料的各台機器上。術語 mapred...

大資料hadoop之yarn

yarn是乙個資源排程平台負責為運算程式提供伺服器運算資源,相當於乙個分布式作業系統平台,mr等程式在上面執行。mr程式把任務提交到客戶端所在節點 rm將使用者請求初始化乙個task進入自己的任務排程佇列,傳送task任務到nm am向rm申請執行maptask容器 rm向nm分配maptask,n...

大資料之 hadoop 簡介

簡介 hadoop 是乙個由 apache 會所開發的分布式系統基礎架構,它可以使使用者在不了解分布式底層細節的情況下開發分布式程式,充分利用集群的威力進行高速運算和儲存。從其定義就可以發現,它解決了兩大問題 大資料儲存 大資料分析。也就是 hadoop 的兩大核心 hdfs 和 mapreduce...