爬取簡書網30日熱門得到詞云 續

2021-09-02 20:15:33 字數 1289 閱讀 2863

前面所使用的jieba分詞中,是自行收集一些不重要的詞進行過濾的,效率不是很高,並且帶有比較大的主觀性(算是優點,也算是缺點)。

本次則改為使用中文停用詞表來過濾一些詞語。**相對於上一節來說變化的主要是analysis.py 中的analysis函式。

**大致如下:

import jieba.analyse
def analysis(db_name, collection_name):

'''

分析資料

@param db_name mongo資料庫名

@param collection_name 集合名稱

@return 返回collections.counter

'''client = pymongo.mongoclient('localhost', 27017)

mydb = client[db_name]

jianshu = mydb[collection_name]

#獲取所有資料,返回的為乙個迭代器

results = jianshu.find()

#計數器

counter = counter()

#停用詞表

jieba.analyse.set_stop_words('./chinese_stop_words.txt')

for result in results:

text = result['text']

tags = jieba.analyse.extract_tags(text, withweight = true)

#tags = jieba.analyse.extract_tags(text, topk = 100, withweight = true)

for item in tags:

counter[item[0]] += item[1]

return counter

因為本次目標是對所有的文章進行分詞,所以還是需要counter進行計數,只不過新增了乙個停用詞表過濾詞語。

jieba.analyse.extract_tags()中的topk表示取出前若干個頻率最高的詞,返回的是list[tuple(詞, 頻率)],這裡因為是對所有的文章進行分析,所以並沒有加入引數topk;若加入則會根據topk大小而使得生成的詞云也會有所不同。

執行結果大致如下:

更改後的**:

簡書推薦作者風雲榜(爬取簡書app資料)

自 作 爬取張佳瑋138w 知乎關注者 資料視覺化 把json資料複製到chrome瀏覽器的json handle外掛程式裡,方便檢視格式和後續爬蟲裡寫提取資訊 很少看到有人提到這個外掛程式,也是蠻奇怪的 寫好爬蟲 爬取資料並存入csv檔案裡,發現一共230名推薦作者。但由於部分資料亂碼,也是很奇怪...

小紅書主頁爬取 小紅書資料爬取教程

該樓層疑似違規已被系統摺疊 隱藏此樓檢視此樓 無意間瀏覽進了小紅書的乙個頁面,既然進來了那麼不好意思,必須得搞一下 首先這裡有個問題,本人對計算機視覺幾乎小白,所以面對滑塊驗證只能靠碰撞獲取cookie,後來發現沒什麼卵用,概率太低,而且這個頁面幾乎也不需要登入,如果遇到需要登入的情況,就手動進 滑...

校花網爬取

聯絡爬蟲使用 1 堆糖校花網api 獲取資料的api 路徑 path 2 簡要介紹爬蟲 2 從解析過程來說 方式2 模擬瀏覽器傳送請求 獲取網頁 提取有用的資料 存放於資料庫或檔案中 爬蟲要做的就是方式2 爬蟲過程圖 3 過程各個階段的主要介紹 1 發起請求 使用http庫向目標站點發起請求,即傳送...