蘇寧易購 Hadoop失寵前提是出現更強替代品

在筆者持續調研國內hadoop生態系統生存現狀的同時，kdnuggets發布的2023年資料科學和機器學習工具調查報告再次將「hadoop失寵」言論復活。報告一出，「hadoop被拋棄」幾個字瞬時成為各大標題黨的最愛，充斥在不同的新聞平台。這些報告和資料是否足以動搖hadoop在國內大資料領域的事實標準地位?本身並不擅長處理olap計算和ms級延遲要求的流計算，這是否會成為企業棄用hadoop的重要原因?對於繁多的元件和搭配，企業傾向於哪種組合方式呢?

本期走訪物件：蘇寧易購。作為新一代b2c網上購物平台，經過了多年大小促的流量高峰考驗，蘇寧易購的大資料平台是如何搭建的?對於hadoop生態的各類元件，蘇寧易購如何取捨呢?

蘇寧易購決定選用hadoop：成熟、穩定、成本可接受!

大部分企業在進行技術選型時都會考慮成本與需求，迫切地希望知道同型別企業的選型方案，最終對可能的幾大方案進行全方位調查，得出最符合企業自身業務發展訴求的方案。蘇寧易購首先考察了hadoop生態與自身業務需求的契合度，hadoop可靠、易擴充套件，集海量資料儲存和計算於一體(正如apache hadoop專案官網所描述的)。從成本方面來看，hadoop開源免費，不需要支付昂貴的商業軟體成本，雖然需要額外的人力成本來維護和優化，但相對來說比較少，擁有強大的開源社群支援，目前github上已有7.3k的star。

當蘇寧易購2023年開始搭建大資料平台時，hadoop已經成為大資料領域的事實標準，早已在國內外大型網際網路公司投產穩定執行多年，相對來說比較成熟，而且確實可以解決蘇寧易購海量資料儲存和分析需求，hadoop便順理成章成為蘇寧易購大資料體系的基石。

hadoop生態雖然足以應對海量資料儲存和離線分析場景，但對於秒級延遲要求的olap計算和ms級延遲要求的流計算場景卻無能為力，這也成為很多人看衰hadoop生態的原因之一，當然目前也沒有任何乙個平台能完美應對以上所有場景。

元件級競爭激烈，spark優勢明顯，容器興起再掀風波!

所謂無風不起浪，hadoop生態看似穩固，但其元件級別的競爭相當激烈，spark和flink成為強勁對手。蘇寧易購認為，hdfs作為海量資料的儲存系統，具有非常高的可靠性和易擴充套件性，一直以來表現穩定，在大檔案儲存和分析領域，市場上還沒有能夠替代的產品;hbase在kv儲存領域占有絕對優勢，特別是大規模資料集場景幾乎是必選方案，在gb-tb的資料規模下，redis和其他記憶體資料庫被普遍使用;zookeeper作為分布式協調系統，被大規模廣泛使用，依然擁有很強的生命力;yarn與mesos在分布式資源排程領域競爭由來已久，在不同領域各有建樹，yarn畢竟根源於hadoop，已是hadoop生態標配，隨著容器的興起和廣泛使用，swarm和kubernetes也加入資源管理領域的競爭，使這個領域的競爭更加激烈。

spark作為記憶體型計算框架，其先進的理念、優秀的效能表現對mapreduce衝擊很大，mapreduce兩階段的計算特性雖然簡化了程式開發的難度，但引入了過多磁碟、網路io和任務啟停開銷，成為過去已是必然，特別是sparksql，基本讓hive的底層計算引擎mr無立足之地，蘇寧易購也一直在推進sparksql替換hql的工作，但hive作為資料倉儲的功能基本不會被替換。

spark作為hadoop生態系統中的重要元件，在大資料計算領域依然不可或缺，spark sql, spark mllib已被廣泛應用。但是，蘇寧易購認為，spark目前只是作為計算引擎存在，資料儲存還需要依靠hdfs，s3，ceph等系統。未來的資源肯定要統一管理，只有資源集中管理、統一調配才能充分被利用，即使不on yarn模式執行，也會on mesos或者on kubernetes之類的系統去執行。至於資源統一管理帶來的隔離性要求，這是yarn、mesos們要考慮的問題。蘇寧易購計畫在下半年啟動統一資源管理專案，將流計算、離線計算資源統一管理排程，預計能節省30%左右的機器成本。

此外，flink作為近幾年出現的計算框架，與spark比較相似，都期望提供流處理、批處理統一api程式設計模式，但兩者看問題的角度完全不同。spark最先發力批處理，後做成微批處理實現流計算，而flink從一開始就面向流計算，將資料看成unbounded，將批處理當做流的一種特殊情況。基於此，目前flink更多的被用在流計算領域，比如阿里深度定製的blink已成為其內部主流的流處理框架。從設計角度來說，flink也有很多亮點，比如支援event-time，支援exactly-once的處理語義，支援分布式非同步checkpoint等。蘇寧易購目前內部主推flink，期望能替代有點老邁的storm。

目前flink剛剛發布1.5版本，修復了很多bug，新增了很多特性，比如對sql和table的增強，優化了網路棧;社群也比較活躍，共有3700多個star，保持5個月左右一次大版本發布的頻率。在流計算領域，flink絕對是強有力的競爭者。

gartner看衰言論解讀：看事情的角度不同可能造成結果差異!

經過十多年的發展，hadoop已經比較成熟且執行穩定，生態也相對完善，在海量資料儲存和分析領域已經成為事實標準。至於gartner的唱衰論調，蘇寧易購認為，hadoop就好比日常生活中的水電煤，因為太普遍反而引不起特別關注，或者，gartner報告中所說的hadoop是指狹義上的hadoop，也就是原始的hdfs和mapreduce組合。如果單看這兩大元件的發展，mapreduce確實在逐漸退出舞台，被spark/flink所取代。

蘇寧易購認為，hadoop失寵前提一定是出現更強大的可替代大資料解決方案，現在來看，並沒有這樣的方案出現。儲存和計算領域確實持續出現了一些受追捧的新元件，比如olap領域的druid和clickhouse，就是用來彌補hadoop在海量資料多維實時分析場景下的不足。比如flink，採用流處理、批處理統一api程式設計模式解決兩種模式、兩種api帶來的不統

一、程式設計門檻高等問題。

短期內，蘇寧易購沒有顛覆性調整大資料底層平台架構的計畫，仍然以hadoop生態系統為核心，並對hadoop的未來充滿信心，但會在一些hadoop覆蓋不到的場景中引入其他元件並持續投入，比如druid\elasticsearch。

筆者點評：

其次，hadoop生態內元件級別的替換淘汰是很正常的，但這暫時還不會上公升到生態層面。正如蘇寧易購所言，在沒有更加強大的替代品出現之前，hadoop生態的地位依舊穩固。

蘇寧易購 Hadoop失寵前提是出現更強替代品

蘇寧易購爬蟲價格尋找

618，新版蘇寧易購APP亮相

蘇寧易購蘇寧小店將獲4 5億美元增資

蘇寧易購 Hadoop失寵前提是出現更強替代品

蘇寧易購爬蟲價格尋找

618，新版蘇寧易購APP亮相

蘇寧易購 蘇寧小店將獲4 5億美元增資

相關推薦

蘇寧易購蘇寧小店將獲4 5億美元增資