1 騰訊 實時資料流推薦實踐

2021-10-01 05:10:27 字數 492 閱讀 2933

tecentrec :real-time stream recommendation in practice

解決問題

主要解決問題: 資料量大、實時、準確性

實時計算平台選取

(1) 支援實時資料統計計算

(2)集群擴充套件性好

(3)失敗恢復快

(4) 活躍度較高的開源工具

(5)簡單程式設計模式,支援多種國語言

協同過濾演算法實踐

(1)因此反饋問題解決

不同行為設定不同的權重

(2)相似度計算進行拆解為多個部分,然後統計。

(3)實時裁剪

基於霍夫不等式,計算不超過最小相似度的置信度,如果在置信度範圍類,則將該pair對進行裁剪。

(4)資料稀疏

基於人口屬性聚類,獲取群體偏好。

(5)實時過濾機制

通過滑動視窗和實時個性化過濾,獲取使用者實時興趣。 通過滑動視窗過濾舊的資料。相似度計算中,只考慮最近的w個會話。

kafka實時資料流寫入HDFS

一 摘要 impala作為實時資料分析引擎,其源資料時效性要求不同,主要分為離線資料分析和實時資料分析。離線資料分析應用場景下,可以利用hive離線載入資料。實時資料分析則依靠kafka 高吞吐量的訊息發布訂閱系統 二 kafka介紹 kafka是一種高吞吐量的分布式發布訂閱訊息系統,它可以處理消費...

實時資料流計算引擎Flink和Spark剖析

在過去幾年,業界的主流流計算引擎大多採用spark streaming,隨著近兩年flink的快速發展,flink的使用也越來越廣泛。與此同時,spark針對spark streaming的不足,也繼而推出了新的流計算元件。本文旨在深入分析不同的流計算引擎的內在機制和功能特點,為流處理場景的選型提供...

從實時資料流中搜尋資料 演算法2

專案需要從實時單向資料流中讀取和篩選資料,即當遇到標誌資料時,執行某些操作。所有資料只能讀一次,不能回溯。我們的場景是監聽串列埠,然後根據監聽結果,讀取後續資料。上午寫了個演算法程式 從實時資料流中搜尋資料,監控實時資料流中的資料,發現資料時立即做出應對。然後,寫完了之後,總覺得效能有缺陷。仔細考慮...