中文銳推榜的優化

2021-09-23 21:02:26 字數 1684 閱讀 8745

鄭昀@玩聚rt 20090615

中文銳推榜(原理很簡單,就是自動蒐集中文世界微部落格的銳推(**)訊息,語義計算訊息之間的相似性,自動聚合一條訊息被 twitter和飯否使用者**的次數;**次數高的訊息將登上熱榜)在6月9日加入飯否的合併統計之前,存在的老問題:

1、重複:發源自不同人的銳推,內容大致是一件事情或乙個鏈結,但由於措辭不同(漢語博大精深),甚至只是在最前面加了幾個字或者詭異的符號,然後只要**次數足夠多,就可以導致重複上榜;

在 @netputer 的建議下,最近加入對飯否資料的統計。

之後常被投訴的問題:

1、還是重複問題

2、部分知名id過於頻繁上榜:尤其以飯否id為主;

3、少量上榜訊息不具有傳播性:即訊息並不像玩聚rt所致力挖掘的那麼「有趣」;

4、飯否的訊息上榜過多:飯否的站方規範**行為,增加了**按鈕之後,降低了**行為的成本。

解決辦法:針對2和3,玩聚rt增加了乙個黑名單,專門收納那些有很多熱情粉絲的、訊息卻不具有傳播性的id。但考慮到無處不在的「馬太效應」,名人id的訊息上榜多,是顯而易見的社會常態,不應該被禁止或限制。只要符合「有趣」的特質,那麼即使是名人的訊息,通過**次數足夠多證明了它的可傳播性,那麼就應該被傳播出去。畢竟,榜單追求的是「有趣」。當初techmeme的創始人gabe非常強調的一點就是:「我希望能讓讀者感到有趣,同時也為不知名作者提供展示自己的舞台」。如果榜單上全都是東東槍、連岳或艾未未的名人銳推,人們也會很快厭倦的,所以增加不知名微部落格使用者的上榜機率,才是我們要認真考慮的。熱門榜單相當於給你五分鐘登上舞台**的機會,至於是否抓人,就要看你的自身魅力了。上了銳推榜,第一波可以讓至少兩、三千人看到,然後也許有近百人再**,按此估算,上榜的輻射面可能有近萬人。這能夠給不知名作者帶來不少訂閱者。

針對4,把來自twitter的訊息上榜的閾值,與飯否的分開。飯否的上榜閾值要高得多。

針對1,@terryxxy 建議,對每一條已達到上榜資格的銳推訊息,在準備上榜之前,可以與48小時內的已上榜銳推進行相似性比較;如果此訊息發現與之前的訊息重複度大於85%,就不再上榜。但考慮到微部落格使用者對漢語運用的隨意性,還是會存在一定判錯機率的。

其他問題:

5、@easthero認為飯否使用者和twitter使用者的群體是完全不同的,twitter上的更具有geek氣質。所以他認為需要把twitter的銳推榜與飯否的徹底分開,不要混合在一起計算和傳播。

當然,在@netputer 建議為飯否單獨建乙個銳推榜時,我也是這麼認為;飯否使用者質量不如twitter質量高,所以它們的訊息不能合併計算。

但,在做了一段時間的實驗後,我發現也不是這麼絕對。

具有傳播特質的銳推,和人性有關,與geek無關。geek也是人。

飯否和twitter上的能上榜的銳推訊息本質都是一樣,無非幾個命題:

自由主義、科技、**和**性新聞。

你可以回到加入飯否之前(6月9日)的銳推榜,比如  ,對,修改後面的p引數,翻到40、50頁看看,看和現在合併統計的有何區別呢?不還都是那些東西嗎?科技、自由、大事件、段子、**。

以後再增加其他微部落格服務時,只要調高或調低發源自它們的訊息的上榜閾值,調整好黑名單,我認為可以合併統計。

中文銳推榜優化 二

鄭昀 玩聚rt 20090812 一 twitter搜尋索引的問題 由於銳推榜利用的是 twitter search api 入口,所以是否能足夠全地找到所有中文 retweets 又名 銳推 rt 轉推 很多時候取決於 twitter 自己的索引是否能正確地識別 tweet 所採用的語言。今年曾經...

中文銳推榜的乙個里程碑

鄭昀 玩聚rt 20090618 今天,terryxxy 發訊息 恭喜 rtmeme follower 上2000 fw zhengyun 是的,玩聚中文銳推榜的twitter訊息發布機械人 rtmeme 的訂閱人數超過了2000人。我期望 rtmeme 能成為欲 微部落格有趣之處的新使用者必 fo...

中文銳推榜的乙個里程碑

鄭昀 玩聚rt 20090618 今天,terryxxy 發訊息 恭喜 rtmeme follower 上2000 fw zhengyun 是的,玩聚中文銳推榜的twitter訊息發布機械人 rtmeme 的訂閱人數超過了2000人。我期望 rtmeme 能成為欲 微部落格有趣之處的新使用者必 fo...