Python爬取百度春節祝福語並生成心形詞云

2022-09-21 02:00:16 字數 1154 閱讀 2314

目錄

最近剛好在看爬蟲,就爬取一下春節祝福語,生成個詞云玩一玩,大家有興趣可以試試,會奉上源**,很簡單。效果圖如下:

環境:windows,

語言:python,python版本是3.7

所依賴的第三方包:

selenium----爬取**,收集祝福語,這個庫做ui自動化測試的估計會比較常見,我這裡沒採用使用requests庫去爬取,用這個庫的好處是爬取的過程中頁面是實時可見的

wordcl程式設計客棧oud---用來生成詞云

pil---使詞云生成想要的輪廓, 這裡注意python程式設計客棧3.7安裝的時候應該使用pip install pillow

numpy---生成那種有輪廓的詞云,還需要安裝這個包,這個包將給出形狀的表示為乙個大型矩陣

jieba---詞云生成的詞預設是英文,因我們爬取的祝福語是中文,需要用這個庫能識別中文,防止中文亂碼

(1)我爬取百度,搜尋到關於春節祝福語,然後把這些祝福語存放到乙個檔案中。詳細如下:

這裡用到了selenium的webdriver, 使用的瀏覽器是firefox, 建立了乙個firefox瀏覽器物件,然後firefox開啟百度,定位到百度輸入框,輸入搜尋詞--新春祝福2022www.cppcns.com,瀏覽器頁面顯示如下

在這個頁面,我模擬人工點選這第乙個搜尋出來的結果,跳到其他**頁面,如圖

把這個頁面的所有祝福語獲取到,存到wishes.txt檔案中

(2)然後用生成詞云的相關庫,來解析這個檔案,生成詞云 這裡注意一點的是,生成詞云使用的中文字型, font_path使用的是windows的字型庫,這裡你可以換成其他的字型

word_cloud = wordcloud(mask=mask, font_path='c:\windows\fonts\stxingka.ttf').generate(text)

windows 字型庫

注可以修改背景顏色和字題顏色,例如

word_cloud = wordcloud(mask=mask, background_color='white', contour_color='red', colormap='brg',

max_words=600,

font_path='c:\windows\fonts\stxingka.ttf').generate(text)

重新執行之後,如圖

python生日祝福語 春節生日快樂祝賀詞

春節生日快樂祝賀詞 在你生日這天,我將快樂的音符,作為禮物送給,願你擁有365個美麗日子,別忘了在美麗的日子中攜帶好我送給你的祝福,生日快樂!歲歲平安 今天是你的生日,當你開啟手機的第一瞬間,我送給你今天的第乙個祝福,願屬於你的這一天是最美麗的,最溫馨的,最浪漫的,最難忘的 青春 陽光 歡笑 在這屬...

爬取百度諮詢

獲取url,就是把關鍵字進行urlencode。整理爬取的內容,就是把一些 回車 空格 等雜七雜八的東西過濾掉。輸出結果下面是 import re from urllib import parse import time import requests from bs4 import beautif...

爬取百度(有道)翻譯

難點是分析動態網頁 抓包 找出url。self.query input 請輸入要翻譯的內容 self.url self.data self.headers def run self post response requests.post url self.url,data self.data,hea...