簡單業務推薦排序演算法

2021-08-01 20:40:13 字數 649 閱讀 4148

tf計算因子代表了詞頻,即乙個單詞在文件中出現的次數。一般來說在某個文件中反覆出現的單詞,往往能夠表徵文件的主題資訊。即tf值越大,越能代表文件所反映的內容,那麼應該給予這個單詞更大的權值。為了抑制長文件在詞頻數量上存在優勢,詞頻因子tf的計算公式:

tf=1+log(n)

n表示特徵單詞在該文件中出現的次數

idf代表的是文件集合範圍的一種全域性因子。表示在文件集合(業務)中,特徵單詞之間的相對重要性。逆文頻率因子idf計算公式:

idf=log(n/n)

n代表文件集合中總共有多少個文件

n表示特徵單詞在文件集合中出現的文件個數

idf反映了乙個特徵詞在整個文件集合中的分布情況。idf值越低,這個詞區分不同文件的能力越差。

tf*idf框架結合了詞頻因子和逆文件詞頻因子的計算框架,將兩者相乘做為特徵權值。特徵權值越大,則越可能說明詞和文件的相關性越高。

weight(bi)=max(sum(tfv*idf))

即取業務bi中所有內容中最大權值的當做業務的權值。

業務推薦時按照業務權值從大到小的順序推薦給使用者,這樣使用者就能最先看到和自己搜尋最匹配的業務內容。

推薦演算法簡單實現

coding utf 8 import random 乙個使用者的標籤行為一般由乙個三元組組成 使用者,物品,標籤 即使用者u給物品i打上了b標籤。1.統計每個使用者最常用標籤 2.對於每個標籤,統計被打過這個標籤次數最多的物品 3.對於乙個使用者,找到他常用的標籤,從而找到具有這些標籤的熱門物品進...

推薦系統演算法簡單總結

1 協同過濾和基於內容推薦有什麼區別?使用者u1喜歡的電影是a,b,c 使用者u2喜歡的電影是a,c,e,f 使用者u3喜歡的電影是b,d 協同過濾的辦法 那麼你完全可以忽略item的建模,因為這種辦法的決策是依賴user和item之間的關係,也就是這裡的使用者和電影之間的關係。我們不再需要知道ab...

排序演算法簡單演算法

1 直接插入排序 把後面未排序部分的首個數插入到前面已排序部分的正確位置上去,直到全部排好順序。直接插入排序是穩定的,演算法時間複雜度o n 2 2 shell排序 將要排序的一組數按某個增量g分成若干組,每組中記錄的下標相差g。對每組中全部元素進行直接插入排序,然後縮小增量g,在每組中再進行排序。...