來,再做乙個社會化推薦引擎

2021-09-08 02:23:04 字數 2346 閱讀 4470

在閱讀本文之前,我們強烈建議您閱讀一下鄭昀 的《來,做乙個社會化推薦引擎》和《乙個想法從構思到實現只需7天》,本文所討論的議題以及我們正在做的事情,都始於他以前在相同領域的工作與思考。我們的測試版社會化推薦引擎取名為「玩聚貓」( ,也是在名稱上延續鄭昀在三年前發布的同類產品「玩聚sr」。

當然,我們並不是在**如何簡單地複製鄭昀以前的工作,而是**如何站在巨人的肩膀上,把社會化推薦引擎做得更好、更全面、更討使用者喜歡。

鄭昀在三年前對此的定義是「選擇一批it業界人士的社會化**分享源,如

曹增輝、

馮大輝的googlereader分享,白鴉、

困獸的twitter,張亮

的飯否,還有嘰歪de

、delicious

鮮果熱文

、digg

或reddit

一樣的跨平台社會化推薦引擎,並進一步引入語義關聯技術,進化到

協同過濾

+語義過濾的自動化系統。」

由於資料來源的原因,鄭昀的定義比較強調「it業界人士」,而我們想淡化這一點。

a)由於過分依賴於it業界人士,所推薦的內容難以吸引非it人士

b)資料來源較少(無論是種類還是數量),google reader shared item和twitter佔據了超過85%的資訊。

c)由於b),沒有形成在更大範圍通用的排名公式。

d)沒有像google pr( google pagerank)那樣的指標,無法向使用者直觀地體現特定文章的價值。

e)推薦者權重模型(如名人效應)沒有得到體現

因此,我們打算重新發明車輪,進行一場新的社會化推薦革命!

我們把國內社會化分享**分為以下四類:

d)rss閱讀器。包含google reader、鮮果、抓蝦、豆瓣9點等等。

上文也零星提及了一些,歸納起來有以下幾點重要差異:

c)『分享行為』發起人的權重不同。例如李開復**了一條微博,權重會比50個我**同樣一條微博更高。

當然,我們希望這些差異對使用者透明,因為使用者不需要了解這麼多。使用者只需要乙個類似google pr的數字直接了當地告訴他文章價值就可以了。

所以我們引入了sr(social rank),範圍0~10,標識在每篇文章的標題後面。一篇文章的sr能夠精確表示它在其他各種社會化**的火熱程度。

設定我們有n種資料來源,分別是 ∈ s

如前文所述,資料來源有4種型別,分別是∈ t。

設型別權重 ∈w t

對於資料來源si ,

設資料來源自身權重為sw(i), sw(i)由**的alexa排名、pv量、修正值決定。

t(i)表示它所屬於的分類,wt(t(i) )  表示si的型別權重

在計算某篇文章的sr時,設a(i) 是該文章在si資料來源裡的『分享行為』計數。

那麼,對於這篇文章而言,

sr = logx  ∑i=1..na(i) ×wt(t(i) )× sw(i)

為什麼是logx 呢? 有兩點原因,一是它可以使得早期的投票獲得更大的權重,比如,當x=10時,前 10 票獲得的權重,與 11 到 101 票所獲得的權重是一樣的;二是使資訊的層級呈金字塔型分布,就像google pr、**黎克特制等級一樣。

maxv= max( vj= ∑i=1..na(i) ×wt(t(i) )× sw(i) | j=1..m  )

由於sr的範圍是0至10,我們令 x^10 =maxv

從而計算出 x =  10√maxv

如果maxv為35000,則x應該設定為2.847,sr = log2.847 ∑i=1..na(i) ×wt(t(i) )× sw(i);推薦價值約200的文章sr為5,推薦價值約4500的文章sr為8,推薦價值大於35000的文章sr為10。

通過這樣的公式,為每篇文章都計算出乙個rank值,使用者就能直觀又精確地了解到文章的價值了。

×注意:玩聚貓的socialrank和《來,做乙個社會化推薦引擎

》裡提到的排序依據sr rank不同。玩聚貓的sr跟列表排序依據沒關係,只跟內容本身的價值有關係;鄭昀 只跟排序有關係。

我們正在以下領域進行奮鬥:

1.強化使用者權重系統,尤其是引入模糊計算和估值,強調名人效應。

2.通過實驗資料,不斷改進排名演算法。

3.引入智慧型語義、自然語言,使玩聚貓在面對文字資訊時,能夠以人類而非機械的方式進行思考、歸類、關聯、過濾、總結。

4.引入機器學習(如prediction),使玩聚貓能夠記住每乙個使用者的口味,個性化地推薦文章。

如果你對社會化推薦感興趣的話,不妨到玩聚貓

看看(目前是測試版本,伺服器在國外,可能不太穩定,請見諒)。我們熱忱歡迎您的一切寶貴意見、建議和批評。

谷歌在Android之外再做乙個全新的作業系統

fuchsia是乙個正在開發中的開源作業系統。它可以在各種裝置上執行,無論是單一用途的裝置 比如自動取款機atm和gps單元 還是桌面電腦,都是它的用武之地。但是,與android不同的是,fuchsia並不是乙個基於linux的系統,也沒有以其他支柱型軟體為基礎。它是從零開始構建的。fuchsia...

Linux常見命令做乙個推薦和小結

常用的目錄操作命令 常用的檔案操作命令 個人認為最詳細的linux linux面試題 2020最新版 本文只在此基礎上做一些總結和細節上的思考。普通檔案 目錄檔案 d 裝置檔案 c b c字元裝置檔案,b塊裝置檔案 符號鏈結檔案 l 管道檔案 p 讀許可權 r 寫許可權 w 執行許可權 x 無許可權...

今天來做乙個PHP電影小爬蟲。

今天來做乙個php 電影小爬蟲。我們來利用 html dom的採集資料例項,這是乙個php的庫,上手很容易。html dom 可以很好的幫助我們利用php解析html文件。通過這個php封裝類可以很方便的解析html文件,對其中的html元素進行操作 php5 以上版本 下面我們以 上的列表頁 字母...