《新浪微博使用者興趣建模系統架構》讀後感

微博使用者興趣建模系統由實時系統和離線挖掘系統兩個子系統構成。因為每時每刻都有大量微博使用者發布新的微博，實時系統需要及時抽取興趣詞和使用者興趣分類，而離線挖掘系統的目的則是優化使用者興趣系統效果。

1、實時抽取系統

當微博經過語義處理單元處理後，已經由原始的自然語言方式轉換為由焦點詞和分類構成的語義表示。每條微博有兩個關鍵的key:微博id和使用者id，經過語義處理後，系統實時將微博插入「feed語義表示redis資料庫」中，每條記錄以微博id為key，value則包含對應的uid以及焦點詞向量和分類向量。考慮到每天每個使用者可能會發布多條微博，為了能夠有效控制「feed語義表示redis資料庫」資料規模在一定範圍，系統會監控「feed語義表示redis資料庫」大小，當大小超出一定範圍時，即將微博資料根據使用者id進行合併進入「user語義表示redis資料庫」。

在使用者不活躍時段，系統會將「user語義表示redis資料庫」的內容和儲存在mysql中的使用者歷史興趣資訊進行合併，在合併時會考慮時間衰減因素，將當日微博使用者新發表的內容和歷史內容進行融合。為了增加系統效率，會設立乙個歷史資訊快取redis資料庫，首先將部分使用者的歷史資料讀入記憶體，在記憶體完成合併後寫入mysql進行資料更新。

2、離線挖掘系統

出於精準定位使用者興趣的目的，在實時抽取系統已經通過「焦點詞抽取」以及歷史合併時採取一些特殊合併策略來優化演算法，但是通過實際資料分析發現，有些使用者的興趣詞向量還包含不少噪音，主要原因在於：微博使用者在發布微博或者**微博時有很大的隨意性，並非每條使用者發布的微博都能夠表示使用者的興趣，比如使用者**一條「有獎**」的微博，目的在於希望能夠通過**中獎，所以其微博內容並不能反映使用者興趣所在。為了能夠更加精準地從使用者發布內容定位使用者興趣詞，通過對實時系統累積的使用者歷史興趣進行離線挖掘系統來進一步優化系統效果。

但是問題在於：如何知道兩條微博是否語義相近？更具體而言，通過實時抽取系統累積的使用者興趣已經以若干興趣詞的表示方式存在，那麼問題就轉換成：如何知道兩個單詞是否語義相近？如何將語義相近的興趣詞進行聚類？如何判別聚類後的興趣詞哪些可以保留哪些需要過濾？

通過圖挖掘演算法來解決上述問題，將某個使用者歷史累計的興趣詞構建乙個語義相似圖，任意兩個單詞之間的語義相似性通過計算單詞之間的上下文相似性來獲得，如果兩個單詞上下文相似性高於一定值則在圖中建立一條邊。然後在這個圖上執行pagerank演算法來不斷迭代給單詞節點打分，當迭代結束後，將得分較高的單詞保留作為能夠表達使用者興趣的興趣詞，而將其他單詞作為噪音進行過濾。

在具體實現時，因為每次運算都是在單個使用者基礎上，記錄之間無耦合性，所以非常適合在hadoop平台下使用mapreduce來分布計算，加快運算效率。

《新浪微博使用者興趣建模系統架構》讀後感

android新浪微博呼叫使用者微博介面

新浪微博的儲存思路整理架構分享微博架構的回顧

讀《微博推薦架構的演進》有感

《新浪微博使用者興趣建模系統架構》讀後感

android新浪微博呼叫使用者微博介面

新浪微博的儲存思路整理架構分享 微博架構的回顧

讀《微博推薦架構的演進》有感

相關推薦

新浪微博的儲存思路整理架構分享微博架構的回顧