1 騰訊實時資料流推薦實踐

tecentrec :real-time stream recommendation in practice

解決問題

主要解決問題：資料量大、實時、準確性

實時計算平台選取

（1）支援實時資料統計計算

（2）集群擴充套件性好

（3）失敗恢復快

（4）活躍度較高的開源工具

（5）簡單程式設計模式，支援多種國語言

協同過濾演算法實踐

（1）因此反饋問題解決

不同行為設定不同的權重

（2）相似度計算進行拆解為多個部分，然後統計。

（3）實時裁剪

基於霍夫不等式，計算不超過最小相似度的置信度，如果在置信度範圍類，則將該pair對進行裁剪。

（4）資料稀疏

基於人口屬性聚類，獲取群體偏好。

（5）實時過濾機制

通過滑動視窗和實時個性化過濾，獲取使用者實時興趣。通過滑動視窗過濾舊的資料。相似度計算中，只考慮最近的w個會話。

kafka實時資料流寫入HDFS

一摘要 impala作為實時資料分析引擎，其源資料時效性要求不同，主要分為離線資料分析和實時資料分析。離線資料分析應用場景下，可以利用hive離線載入資料。實時資料分析則依靠kafka 高吞吐量的訊息發布訂閱系統二 kafka介紹 kafka是一種高吞吐量的分布式發布訂閱訊息系統，它可以處理消費...

實時資料流計算引擎Flink和Spark剖析

在過去幾年，業界的主流流計算引擎大多採用spark streaming，隨著近兩年flink的快速發展，flink的使用也越來越廣泛。與此同時，spark針對spark streaming的不足，也繼而推出了新的流計算元件。本文旨在深入分析不同的流計算引擎的內在機制和功能特點，為流處理場景的選型提供...

從實時資料流中搜尋資料演算法2

專案需要從實時單向資料流中讀取和篩選資料，即當遇到標誌資料時，執行某些操作。所有資料只能讀一次，不能回溯。我們的場景是監聽串列埠，然後根據監聽結果，讀取後續資料。上午寫了個演算法程式從實時資料流中搜尋資料，監控實時資料流中的資料，發現資料時立即做出應對。然後，寫完了之後，總覺得效能有缺陷。仔細考慮...

1 騰訊 實時資料流推薦實踐

kafka實時資料流寫入HDFS

實時資料流計算引擎Flink和Spark剖析

從實時資料流中搜尋資料 演算法2

相關推薦

1 騰訊實時資料流推薦實踐

從實時資料流中搜尋資料演算法2