中文銳推榜優化 二

2022-03-01 23:45:06 字數 1177 閱讀 8253

鄭昀@玩聚rt 20090812

一、twitter搜尋索引的問題

由於銳推榜利用的是 twitter search api 入口,所以是否能足夠全地找到所有中文 retweets(又名:銳推/rt/轉推) ,很多時候取決於 twitter 自己的索引是否能正確地識別 tweet 所採用的語言。

今年曾經有一度,長達乙個月的時間,twitter 的亞洲語言索引全部亂掉,日文、泰語、韓文、中文等語言寫就的 tweets 混亂地分布在不同國家語言的索引中,而日文和中文的索引幾乎不再更新。所以說,twitter 的搜尋真的真的很需要 friendfeed 這樣的實時搜尋技術專家支援。

twitter search 不能良好地識別 tweets 語言的結果,可能就是 中文銳推榜 會漏掉訊息。

二、包含 rt 單詞的訊息並不都是銳推

這個問題其實相當嚴重,最近至少發生過兩次。上次是某人發訊息送大禮,訊息體內說請大家rt。結果 銳推榜 預設將第乙個找到的**訊息正文作為上榜訊息正文,於是很多人以為是 @rtmeme 要派送大禮。

這次是 @faytoday 發訊息求助,正文的「rt會走桃花運.」帶了rt標誌,於是銳推榜檢測到足夠多的**次數後,就原樣**了這條訊息,害得 @faytoday 回覆說 @rtmeme 搶了他的風頭。

銳推榜只是搜尋 tweets 文字中的rt/retweet/retweeting/rtwt/**:等單詞,所以程式並不能明確判別乙個 tweet 是不是銳推。

但必須改進這一點。

舉例:

現在,統計程式檢測到超過6個人在**這條訊息:「rt @fenng: 有些公司的**活動就是浪費。專門給愛佔小便宜和鑽空子的使用者準備的。使用者只有有需求才用你的**,而不是湊熱鬧才用你的**。」,那麼它應該上榜;然後找到銳推榜所能索引到的第乙個**者id是 @xuyangchina ,於是,這條上榜訊息就變成了:

這樣做的缺點就是,@rtmeme 本來可以在銳推傳播路線圖上處於第二傳播梯隊,現在不得不變成第三傳播梯隊。

就是這樣了。

1、《中文銳推榜的優化》2009-06-16

2、《中文銳推榜的乙個里程碑》2009-06-19

3、《中文微部落格的熱門銳推使用者榜》2009-06-25

中文銳推榜的優化

鄭昀 玩聚rt 20090615 中文銳推榜 原理很簡單,就是自動蒐集中文世界微部落格的銳推 訊息,語義計算訊息之間的相似性,自動聚合一條訊息被 twitter和飯否使用者 的次數 次數高的訊息將登上熱榜 在6月9日加入飯否的合併統計之前,存在的老問題 1 重複 發源自不同人的銳推,內容大致是一件事...

中文銳推榜的乙個里程碑

鄭昀 玩聚rt 20090618 今天,terryxxy 發訊息 恭喜 rtmeme follower 上2000 fw zhengyun 是的,玩聚中文銳推榜的twitter訊息發布機械人 rtmeme 的訂閱人數超過了2000人。我期望 rtmeme 能成為欲 微部落格有趣之處的新使用者必 fo...

中文銳推榜的乙個里程碑

鄭昀 玩聚rt 20090618 今天,terryxxy 發訊息 恭喜 rtmeme follower 上2000 fw zhengyun 是的,玩聚中文銳推榜的twitter訊息發布機械人 rtmeme 的訂閱人數超過了2000人。我期望 rtmeme 能成為欲 微部落格有趣之處的新使用者必 fo...