MT 垃圾評論的關鍵詞詞頻統計

2021-08-22 19:18:24 字數 593 閱讀 8039

perl -pe '~s/\w/\n/g' 將所有的非字符集變成回車(一行乙個詞)

awk '' 濾出長度大於1的字串,字元統一變成小寫

sort|uniq -c|sort -rn | head -100 排序,計數,彙總,取top 100個

2007-07-30更新: 對trackback中的統計

匯出指令碼:

select `tbping_excerpt` , `tbping_title` , `tbping_source_url` from `mt_tbping` where `tbping_visible` =0 into outfile '/tmp/tb.log';

統計指令碼:

perl -pe '~s/\w/\n/g' /tmp/tb.log |awk ''|sort|uniq -c|sort -rn | head -100

車東 發表於:2006-06-07 08:06 最後更新於:2007-07-30 09:07

« sarah khider的blog | (回到blog入口)|(回到首頁) | 使用雅虎實現免費站內搜尋 »

[再編輯]

使用Python快速統計關鍵詞及其詞頻

1.通過jieba庫分詞獲取所有的詞語列表 2.計算列表裡出現詞語及其對應的頻次,儲存為字典 3.刪除字典中鍵為無關且頻次高的詞語的鍵值對 4.對字典裡的詞語按照頻次進行排序 5.輸出頻次前五的詞語及其頻次 如果沒有安裝 jieba 庫,需要使用 cmd 進入命令提示符視窗,通過 pip insta...

使用者評論,關鍵詞遮蔽

badword array 小黃 小白 小藍 array fill index,number,value 函式用給定的鍵值填充陣列。array fill 0,count badword 結果 array 0 1 2 array combine 函式通過合併兩個陣列來建立乙個新陣列,其中的乙個陣列元素...

二 關鍵詞 關鍵詞的選擇(二)

1 內容相關 2 搜尋次數多,競爭小 5 商業價值 一 內容相關 當然,這也不一定試用於某些 比如新聞門戶或者純粹依靠廣告贏利的資訊類 很多門戶類 包羅永珍,內容相關性判斷也比較模糊。對這些 來說,只要有流量,就有一定的價值,並不依靠本身的轉化贏利。二 搜尋次數多,競爭小 一般行業通稱都是國語寬泛的...