超越Hadoop的大資料分析之前言

本文翻譯自《big data analytics beyond hadoop》譯者：吳京潤校對：方騰飛

我試圖給人們學習大資料留下的一點深刻印象：儘管apache hadoop很有用，而且是一項非常成功的技術，但是這一觀點的前提已經有些過時了。考慮一下這樣一條時間線：由谷歌實現的mapreduce投入使用的時間可追溯到2023年，發表於2023年。yahoo!於2023年發起hadoop專案。mr是基於十年前的資料中心的經濟上的考慮。從那時以來，已經有太多的東西發生了變化：多核心處理器、大記憶體位址空間、10g網路頻寬、ssd，而至今，這已經產生足夠的成本效益。這些極大改變了在構建可容錯分布式商用系統規模方面的取捨。

此外，我們對於可處理資料的規模的觀念也發生了變化。成功的公司諸如亞馬遜、ebay、谷歌，它們想要更上一層樓，也促使隨後的商業領袖重新思考：資料可以用來做什麼？舉個例子，十年前是否有為大型圖書出版商優化業務的大規模圖論用例？不見得有。出版社高層不可能有耐心聽取這樣乙個古怪的工程建議。這本書本身的營銷將基於大規模資料、開源、圖論引擎，它們也將在本書後續章節講到。同樣的，廣告科技和社交網路應用驅動著開發技術，而如今在工業化的網際網路，採用hadoop將顯的捉襟見肘，也就是所謂的「物聯網」——在某些情況下，會有幾個數量級的差距。

自從mr的商用硬體規模首次制定以來，底層系統的模型已發生了巨大變化。我們的商業需求與期望模型也發生了顯著的變化。此外，應用數學的資料規模與十年前的構想也有巨大的差異。如今主流程式語言也能為並行處理的軟體工程實踐提供更好的支援。

伴隨著這些框架，本書也為開放標準**模型標記語言提出了乙個引人入勝的例子，使得**模型可以在不同平台與環境之間遷移。本書還提到yarn以及下一代超越mapreduce的模型。

這正是當今業界的焦點——hadoop基於2023年以來的it經濟，然而更新的框架與當代業界的用例更為密切。另外，本書既提供了專家指導，也熱烈歡迎由大資料分析開啟的無限可能。

超越Hadoop的大資料分析之前言

大資料分析平台Hadoop與Spark之爭

大資料平台搭建基於Hadoop的資料分析平台

《Hadoop金融大資料分析》讀書筆記

超越Hadoop的大資料分析之前言

大資料分析平台Hadoop與Spark之爭

大資料平台搭建 基於Hadoop的資料分析平台

《Hadoop金融大資料分析》讀書筆記

相關推薦

大資料平台搭建基於Hadoop的資料分析平台