開源大資料週刊 第97期

2021-09-20 04:58:27 字數 723 閱讀 5764

機器學習雖然在過去幾年取得了重大進展,也出現了很多相關的框架,但因為缺乏事實上的標準,在重用和整合機器學習模型時通常涉及大量的定製化工作,而且在效能方面也存在不足。甲骨文開源的 graphpipe 旨在解決這些問題,讓機器學習變得更加簡單,使企業更容易從任何框架部署和查詢機器學習模型。

apache flink 1.6.0在上週發布,涵蓋多項重要更新,此版本繼續使 flink 使用者能夠無縫地執行快速資料處理並輕鬆構建資料驅動和資料密集型應用程式。

雲端逐漸成為大資料企業的必爭之地,近期開源分布式儲存系統alluxio發布1.8版本,加速針對資料分析及機器學習的雲端部署,新版本的功能包括了支援fuse、針對不同雲儲存方案的優化等。

馬蜂窩大資料平台自 2017 年下半年引入 apache kylin 以來,極大的提公升了資料分析師對於資料探索的效率。因為使用了 apache kylin,資料分析師可以直接查詢大資料、無需排隊、亞秒級響應,整體開發效率提高了 10 倍以上。

本文介紹了傳統spark生態系統的架構,以及mongodb作為乙個資料庫儲存引擎在spark生態的角色,著重介紹了使用mongodb替換傳統hdfs後帶來的好處。

近年來,隨著大資料與人工智慧相關技術的迅速發展,新技術逐步在全社會各行各業得到應用。銀行業作為乙個高度資訊化的行業,首當其衝面臨著網際網路新技術應用的挑戰。民生銀行從2023年開始布局分布式、大資料及人工智慧技術等領域,在支撐業務應用場景發展的同時,建設了幾大平台,支援視覺化機器學習、實時推薦引擎、資料開放等場景。

開源大資料週刊 第52期

摘要 利用yarn capacity scheduler在emr集群上實現大集群的多租戶的集群資源隔離和quota限制 本文結合emr集群,講述了如何利用yarn capacity scheduler在emr集群上實現大集群的多租戶的集群資源quota限制與管控。本文根據姜偉華博士在數果智慧型新產品...

開源大資料週刊 第29期

摘要 阿里雲e mapreduce動態 e mapreduce產品即將發布的版本資訊如下 1.5.2版本 增加預定制配置,如試用型 入門型 計算型 記憶體型等 增加包年包月自動續費功能 1.6.0版本 互動式查詢 支援hive spark 資訊 cio時代學院院長姚樂 大資料的行業應用策略 關於大資...

開源大資料週刊 第18期

摘要 本週關注 hadoop集群的規劃 大資料的 位置資料 電商hadoop實戰 alluxio及hadoop spark hive之間的關係。e mapreduce團隊 1.4.1版本 已經發布 1.5.0版本 正在研發 1.6.0版本 e mapreduce hadoop 10大類問題之集群規劃...