SimRank 基於結構的相似度度量方法學習筆記

詳見：glen jeh 和 jennifer widom 的**simrank: a measure of structural-context similarity∗

目前主要有兩大類相似性度量方法：

(1) 基於內容(content-based)的特定領域(domain-specific)度量方法，如匹配文字相似度，計算項集合的重疊區域等；

(2) 基於鏈結（物件間的關係）的方法，如pagerank、simrank和pagesim等。最近的研究表明，第二類方法度量出的物件間相似性更加符合人的直覺判斷。

simrank的特點：完全基於結構資訊，且可以計算圖中任意兩個節點間的相似度。

圖一

基於相似度的方法

異常通常是乙個主觀的判斷，需要結合業務背景和環境來具體分析確定。雜訊和異常之間正常資料和噪聲之間的邊界都是模糊的。異常值通常具有更高的離群程度分數值，同時也更具有可解釋性。巢狀迴圈第一層迴圈遍歷每個資料，第二層迴圈進行異常判斷，需要計算當前點與其他點的距離，一旦已識別出多於個資料點與當前點...

余弦相似度及基於python的余弦相似度實現

余弦相似度，又稱為余弦相似性，是通過計算兩個向量的夾角余弦值來評估他們的相似度。對於兩個向量，可以想象成空間中的兩條線段，都是從原點 0,0,出發，指向不同的方向。兩條線段之間形成乙個夾角如果夾角為0度，則意味著方向相同線段重合如果夾角為90度，意味著形成直角，方向完全不相似如果夾角為180...

基於Map Reduce的相似度計算

基於map reduce的相似度計算不久前 6.29 參加了chinahadoop的夏季沙龍，聽了人人的大牛講了基於map reduce的相似度計算的優化，感覺對map reduce程式設計模型的理解又進一步加深了，在這裡把該演算法總結成博文，以期能夠更加透徹的理解該演算法。相似度的計算在文字的分...

SimRank 基於結構的相似度度量方法學習筆記

基於相似度的方法

余弦相似度及基於python的余弦相似度實現

基於Map Reduce的相似度計算

相關推薦