超越Hadoop的大資料分析之前言

2021-09-23 21:00:19 字數 906 閱讀 5558

本文翻譯自《big data analytics beyond hadoop》譯者:吳京潤 校對:方騰飛

我試圖給人們學習大資料留下的一點深刻印象:儘管apache hadoop很有用,而且是一項非常成功的技術,但是這一觀點的前提已經有些過時了。考慮一下這樣一條時間線:由谷歌實現的mapreduce投入使用的時間可追溯到2023年,發表於2023年。yahoo!於2023年發起hadoop專案。mr是基於十年前的資料中心的經濟上的考慮。從那時以來,已經有太多的東西發生了變化:多核心處理器、大記憶體位址空間、10g網路頻寬、ssd,而至今,這已經產生足夠的成本效益。這些極大改變了在構建可容錯分布式商用系統規模方面的取捨。

此外,我們對於可處理資料的規模的觀念也發生了變化。成功的公司諸如亞馬遜、ebay、谷歌,它們想要更上一層樓,也促使隨後的商業領袖重新思考:資料可以用來做什麼?舉個例子,十年前是否有為大型圖書出版商優化業務的大規模圖論用例?不見得有。出版社高層不可能有耐心聽取這樣乙個古怪的工程建議。這本書本身的營銷將基於大規模資料、開源、圖論引擎,它們也將在本書後續章節講到。同樣的,廣告科技和社交網路應用驅動著開發技術,而如今在工業化的網際網路,採用hadoop將顯的捉襟見肘,也就是所謂的「物聯網」——在某些情況下,會有幾個數量級的差距。

自從mr的商用硬體規模首次制定以來,底層系統的模型已發生了巨大變化。我們的商業需求與期望模型也發生了顯著的變化。此外,應用數學的資料規模與十年前的構想也有巨大的差異。如今主流程式語言也能為並行處理的軟體工程實踐提供更好的支援。

伴隨著這些框架,本書也為開放標準**模型標記語言提出了乙個引人入勝的例子,使得**模型可以在不同平台與環境之間遷移。本書還提到yarn以及下一代超越mapreduce的模型。

這正是當今業界的焦點——hadoop基於2023年以來的it經濟,然而更新的框架與當代業界的用例更為密切。另外,本書既提供了專家指導,也熱烈歡迎由大資料分析開啟的無限可能。

大資料分析平台Hadoop與Spark之爭

zd至頂網軟體頻道訊息 原創文章 文 鄧曉蕾 有人把大資料稱為資訊資產 有人稱為金礦 甚至社會財富。而大資料,即,無法在可承受的時間範圍內用常規軟體工具進行捕捉 管理和處理的資料集合。gartne認為 大資料 是需要新處理模式才能具有更強的決策力 洞察發現力和流程優化能力的海量 高增長率和多樣化的資...

大資料平台搭建 基於Hadoop的資料分析平台

網際網路的發展,帶來了各種資料的爆發式增長,所有接入網際網路的相關操作行為,都化為虛擬的資料被記錄了下來。大資料時代的帶來,乙個明顯的變化就是全樣本資料分析,面對tb pb級及以上的資料規模,hadoop成為主流選擇。企業要進行大規模的資料分析,基於開源的hadoop及其生態圈來搭建起大資料系統平台...

《Hadoop金融大資料分析》讀書筆記

hadoop金融大資料分析 hadoop for finance essentials 使用hadoop,是因為資料量大 資料量如此之多,以至於無法用傳統的資料處理工具和應用來處理的資料稱主大資料 3v定義 即 大量volume,多樣variety,高速velocity是與大資料相關的三個屬性或維度...