推薦系統架構推薦系統（1）業界推薦系統架構

1.1業界主流推薦系統架構

業界推薦系統通用架構

1.2使用者本身資料

1.3物品本身資料

1.4使用者行為資料

2.1基於離線訓練的推薦系統架構設計

常用演算法：邏輯回歸（logistics regression）、梯度提公升決策樹（gbdt）和因式分解（fm）

架構設計：

2.2面向深度學習的推薦系統架構設計

常用演算法：受限玻爾茲曼（rbm）、自編碼器（ae）、卷積神經網路（cnn）、深度神經網路（dnn）、寬度學習（wide&deep）等

架構設計：

常用演算法：ftrl-proximal、adpredictor、adaptive oline learning 和pbodl等

架構設計：

2.4面向內容的推薦系統架構設計

常用演算法：nlp自然語言、word2vec、深度學習dnn、ocr等

架構設計：

3.1資料上報常用元件

3.2離線儲存常用元件

3.3離線計算常用元件

3.5模型服務常用元件

tensorflow serving可以搭建機器學習模型的服務，與tensorflow模型無縫連線，可自動載入新模型、批量處理請求、可水平擴充套件等。

3.6實時計算常用元件

apache storm是乙個開源的分布式實時計算系統。可以與apache kafka 開源流處理平台很好適配，常見用於資料實時統計、聚合分析、模型**等。

spark streaming是對spark核心api的乙個擴充套件，它提供實時資料流的可擴充套件、高吞吐、高可靠的流處理，方便開發者對流式資料進行處理。

1、實時性

問題：在基於基於離線訓練的推薦系統架構，模型迭代過程需要至少以小時為週期，僅適用於對資料時效性不高的業務場景。

解決方案：

2、多樣性

問題：推薦系統多樣性缺乏，推薦結果越來越同質化，使用者新鮮感降低、很難激發使用者購物需求。

解決方案：

針對這個問題，常見用熱傳導、二次優化、社會網路化等。通過設定合理的相似性、集中指數和覆蓋度，來提高推薦結果的多樣性和新穎性。

3、評估測試

現實生活中生產系統最常用的評估方法-abtest，一般先通過方法上下線保留更好的方案，同時不斷上線新的召回、排序特徵等，迭代優化模型，提公升線上效果。

離線演算法評估指標：準確率、覆蓋度、多樣性、新穎性和auc等。

推薦系統架構 推薦系統（1） 業界推薦系統架構