中文銳推榜的優化

鄭昀@玩聚rt 20090615

中文銳推榜（原理很簡單，就是自動蒐集中文世界微部落格的銳推(**)訊息，語義計算訊息之間的相似性，自動聚合一條訊息被 twitter和飯否使用者**的次數；**次數高的訊息將登上熱榜）在6月9日加入飯否的合併統計之前，存在的老問題：

1、重複：發源自不同人的銳推，內容大致是一件事情或乙個鏈結，但由於措辭不同（漢語博大精深），甚至只是在最前面加了幾個字或者詭異的符號，然後只要**次數足夠多，就可以導致重複上榜；

在 @netputer 的建議下，最近加入對飯否資料的統計。

之後常被投訴的問題：

1、還是重複問題；

2、部分知名id過於頻繁上榜：尤其以飯否id為主；

3、少量上榜訊息不具有傳播性：即訊息並不像玩聚rt所致力挖掘的那麼「有趣」；

4、飯否的訊息上榜過多：飯否的站方規範**行為，增加了**按鈕之後，降低了**行為的成本。

解決辦法：針對2和3，玩聚rt增加了乙個黑名單，專門收納那些有很多熱情粉絲的、訊息卻不具有傳播性的id。但考慮到無處不在的「馬太效應」，名人id的訊息上榜多，是顯而易見的社會常態，不應該被禁止或限制。只要符合「有趣」的特質，那麼即使是名人的訊息，通過**次數足夠多證明了它的可傳播性，那麼就應該被傳播出去。畢竟，榜單追求的是「有趣」。當初techmeme的創始人gabe非常強調的一點就是：「我希望能讓讀者感到有趣，同時也為不知名作者提供展示自己的舞台」。如果榜單上全都是東東槍、連岳或艾未未的名人銳推，人們也會很快厭倦的，所以增加不知名微部落格使用者的上榜機率，才是我們要認真考慮的。熱門榜單相當於給你五分鐘登上舞台**的機會，至於是否抓人，就要看你的自身魅力了。上了銳推榜，第一波可以讓至少兩、三千人看到，然後也許有近百人再**，按此估算，上榜的輻射面可能有近萬人。這能夠給不知名作者帶來不少訂閱者。

針對4，把來自twitter的訊息上榜的閾值，與飯否的分開。飯否的上榜閾值要高得多。

針對1，@terryxxy 建議，對每一條已達到上榜資格的銳推訊息，在準備上榜之前，可以與48小時內的已上榜銳推進行相似性比較；如果此訊息發現與之前的訊息重複度大於85%，就不再上榜。但考慮到微部落格使用者對漢語運用的隨意性，還是會存在一定判錯機率的。

其他問題：

5、@easthero認為飯否使用者和twitter使用者的群體是完全不同的，twitter上的更具有geek氣質。所以他認為需要把twitter的銳推榜與飯否的徹底分開，不要混合在一起計算和傳播。

當然，在@netputer 建議為飯否單獨建乙個銳推榜時，我也是這麼認為；飯否使用者質量不如twitter質量高，所以它們的訊息不能合併計算。

但，在做了一段時間的實驗後，我發現也不是這麼絕對。

具有傳播特質的銳推，和人性有關，與geek無關。geek也是人。

飯否和twitter上的能上榜的銳推訊息本質都是一樣，無非幾個命題：

自由主義、科技、**和**性新聞。

你可以回到加入飯否之前（6月9日）的銳推榜，比如，對，修改後面的p引數，翻到40、50頁看看，看和現在合併統計的有何區別呢？不還都是那些東西嗎？科技、自由、大事件、段子、**。

以後再增加其他微部落格服務時，只要調高或調低發源自它們的訊息的上榜閾值，調整好黑名單，我認為可以合併統計。

中文銳推榜的優化

中文銳推榜優化二

中文銳推榜的乙個里程碑

中文銳推榜的乙個里程碑

中文銳推榜的優化

中文銳推榜優化 二

中文銳推榜的乙個里程碑

中文銳推榜的乙個里程碑

相關推薦

中文銳推榜優化二