python爬蟲 一些好用的庫

2021-09-01 12:42:40 字數 927 閱讀 7089

構造瀏覽器的請求資訊是常用的對付反爬的措施。但大多數人寫乙個帶有請求頭的爬蟲會是這樣寫。

headers =

此種方式具備兩個較為突出的缺點:

構造請求頭時需要到相應網也複製headers資訊,麻煩不說還容易少複製或者多複製內容,造成請求頭出錯,影響程式正常執行;

多次使用同一請求頭資訊容易被反爬措施較強的**檢測到爬蟲程式,造成ip被封。

為解決這一問題,簡單實用的庫fake-useragent應運而生,它可以偽裝生成 headers 請求頭中的 user agent 值,而且和隨機模組random配合使用還可以生成隨機的user agent,它的安裝方法也及其簡便 ,使用常用的安裝手段pip install fake_useragent即可完成安裝。使用方法如下:

from fake_useragent import useragent    #匯入fake_useragent庫

ua = useragent()

headers =

headers[

'user-agent'

]= ua.random #使用random產生隨機user-agent

print

(headers)

#產生特定瀏覽器的請求頭

print

('**********************************'

)print

(ua.ie)

#產生ie瀏覽器請求頭

print

('****************************************'

)print

(ua.chrome)

#產生chrome瀏覽器請求頭

開源好用的一些庫

perf counter 是傻孩子在工作中總結和整理出的乙個庫,它的特點是在不干擾已有systick功能的前提下額外為我們提供系統週期測量的功能 並在這基礎上衍生出了delay us 和 系統時間戳的功能。注意 這裡 keil mdk下選項 c c 的 assembler option,根據你mdk...

基礎python學習筆記6 一些好用的庫

w wordcloud.wordcloud width 600 w wordcloud.wordcloud height 400 w wordcloud.wordcloud min font size 10 w wordcloud.wordcloud max font size 20 w wordc...

一些好用的外掛程式

atom one dark theme 好看的主題 atom one light theme 護眼主題 bookmarks 標記,方便查詢 指令 shift cmd k bracket pair colorizer 2 相鄰括號顏色不同,方便查詢 作用域範圍,可以與任何主題使用 code runne...