scrapy 動態IP 隨機UA 驗證碼

2021-09-08 13:23:16 字數 889 閱讀 2905

**********_middlewares增加自定義

from fake_useragent import useragent

class randomuseragentmiddlware(object):

# 隨機更換user-agent

def __init__(self, crawler):

super(randomuseragentmiddlware, self).__init__()

self.ua = useragent()

self.ua_type = crawler.settings.get("random_ua_type", "random")

@classmethod

def from_crawler(cls, crawler):

return cls(crawler)

def process_request(self, request, spider):

def get_ua():

return getattr(self.ua, self.ua_type)

request.headers.setdefault('user-agent', get_ua())

備註:settings.py增加配置項

random_ua_type = "random"

1、通過免費的**ip,如西刺,自己獲取ip源進行使用

2、免費外掛程式

scrapy_proxies

3、收費外掛程式

scrapy-crawlera

1、編碼實現(tesseract-ocr)

3、人工打碼

random_ua_type = 

"random"

scrapy 設定隨機UA

爬蟲過程中的反爬措施非常重要,其中設定隨機 user agent 是一項重要的反爬措施,scrapy 中設定隨機 ua 的方式有很多種,有的複雜有的簡單。首先,說一下常規情況不使用 scrapy 時的用法,比較方便的方法是利用fake useragent包,這個包內建大量的 ua 可以隨機替換,這比...

python爬蟲新增隨機UA

mozilla 4.0 compatible msie 4.0 windows me trident 4.0 sv1 net clr 1.0.3705 net clr 3.0.04320 msn optimizedie8 zhcn mozilla 4.0 compatible msie 4.0 wi...

scrapy隨機更改User Agent方法

在settings.py檔案中加入如下 即可 user agent是固定寫法 具體使用什麼agent可以自己更改下面藍色字型內容。user agent mozilla 5.0 compatible msie 9.0 windows nt 6.1 win64 x64 trident 5.0 net c...