tecentrec :real-time stream recommendation in practice
解決問題
主要解決問題: 資料量大、實時、準確性
實時計算平台選取
(1) 支援實時資料統計計算
(2)集群擴充套件性好
(3)失敗恢復快
(4) 活躍度較高的開源工具
(5)簡單程式設計模式,支援多種國語言
協同過濾演算法實踐
(1)因此反饋問題解決
不同行為設定不同的權重
(2)相似度計算進行拆解為多個部分,然後統計。
(3)實時裁剪
基於霍夫不等式,計算不超過最小相似度的置信度,如果在置信度範圍類,則將該pair對進行裁剪。
(4)資料稀疏
基於人口屬性聚類,獲取群體偏好。
(5)實時過濾機制
通過滑動視窗和實時個性化過濾,獲取使用者實時興趣。 通過滑動視窗過濾舊的資料。相似度計算中,只考慮最近的w個會話。
kafka實時資料流寫入HDFS
一 摘要 impala作為實時資料分析引擎,其源資料時效性要求不同,主要分為離線資料分析和實時資料分析。離線資料分析應用場景下,可以利用hive離線載入資料。實時資料分析則依靠kafka 高吞吐量的訊息發布訂閱系統 二 kafka介紹 kafka是一種高吞吐量的分布式發布訂閱訊息系統,它可以處理消費...
實時資料流計算引擎Flink和Spark剖析
在過去幾年,業界的主流流計算引擎大多採用spark streaming,隨著近兩年flink的快速發展,flink的使用也越來越廣泛。與此同時,spark針對spark streaming的不足,也繼而推出了新的流計算元件。本文旨在深入分析不同的流計算引擎的內在機制和功能特點,為流處理場景的選型提供...
從實時資料流中搜尋資料 演算法2
專案需要從實時單向資料流中讀取和篩選資料,即當遇到標誌資料時,執行某些操作。所有資料只能讀一次,不能回溯。我們的場景是監聽串列埠,然後根據監聽結果,讀取後續資料。上午寫了個演算法程式 從實時資料流中搜尋資料,監控實時資料流中的資料,發現資料時立即做出應對。然後,寫完了之後,總覺得效能有缺陷。仔細考慮...