開源大資料週刊 2023年08月03日 第95期

2021-09-20 05:12:55 字數 859 閱讀 2129

apache kafka 2.0.0 已正式發布,這是乙個主要版本,新增了許多重要的新功能。此外還包括許多重要的 bug 修復和改進,其中還包括一些嚴重的錯誤修復。

2018中國人工智慧大會在深圳舉行。會上,國際人工智慧聯合會(ijcai)主席、aaai/acm/ieee fellow、香港科技大學教授楊強發表了題為《ai面臨的挑戰和遷移學習所帶來的機遇》的演講,談到了ai發展遇到的大資料的困境以及解決辦法。

tableau公司近日推出tableau 2018.2版本更新,該更新的擴充套件api能夠讓使用者直接拖放第三方應用功能到儀表板。此外,在新推出的tableau服務管理器下,使用者可直接在瀏覽器中管理tableau server。

為了檢測幾近重複的相似,我們使用了一套基於 spark 和 tensorflow 的資料流處理系統——neardup。這套系統的核心由乙個使用 spark 實現的批量化 lsh(locality-sensitive hashing,區域性敏感雜湊)搜尋器和乙個基於 tensorflow 的分類器構成。這個資料流處理系統每天能夠比較上億個分析物件,並漸進式地完成各個影象類別的資訊更新。在本文中,我們將講解如何使用這項技術更好地理解海量內容,從而使得我們產品前端介面的推薦內容和搜尋結果具有更高的資訊準確性、更大的資料密度。

雖然在大資料應用層面不盡完美,但yarn在支援長期執行服務方面具有很大優勢,這是yarn社群耗時一年一直在努力做的事情,本文主要介紹該服務的特點和具體使用方法。

本文介紹了360商業資料部使用spark的實踐經驗,並基於應用中遇到的問題給出了對應的優化建議。

本文從程式設計模型、任務排程、時間機制、kafka 動態分割槽的感知、容錯及處理語義、背壓等幾個方面對比 spark stream 與 flink,希望對有實時處理需求業務的企業端使用者在框架選型有所啟發。

開源大資料週刊 第52期

摘要 利用yarn capacity scheduler在emr集群上實現大集群的多租戶的集群資源隔離和quota限制 本文結合emr集群,講述了如何利用yarn capacity scheduler在emr集群上實現大集群的多租戶的集群資源quota限制與管控。本文根據姜偉華博士在數果智慧型新產品...

開源大資料週刊 第29期

摘要 阿里雲e mapreduce動態 e mapreduce產品即將發布的版本資訊如下 1.5.2版本 增加預定制配置,如試用型 入門型 計算型 記憶體型等 增加包年包月自動續費功能 1.6.0版本 互動式查詢 支援hive spark 資訊 cio時代學院院長姚樂 大資料的行業應用策略 關於大資...

開源大資料週刊 第18期

摘要 本週關注 hadoop集群的規劃 大資料的 位置資料 電商hadoop實戰 alluxio及hadoop spark hive之間的關係。e mapreduce團隊 1.4.1版本 已經發布 1.5.0版本 正在研發 1.6.0版本 e mapreduce hadoop 10大類問題之集群規劃...