scrapy隨機更改User Agent方法

2021-09-21 04:50:15 字數 2685 閱讀 6041

在settings.py檔案中加入如下**即可(user_agent是固定寫法),具體使用什麼agent可以自己更改下面藍色字型內容。

user_agent = 'mozilla/5.0 (compatible; msie 9.0; windows nt 6.1; win64; x64; trident/5.0; .net clr 3.5.30729; .net clr 3.0.30729; .net clr 2.0.50727; media center pc 6.0)

在settings.py檔案中通過建立乙個agent列表,然後通過從中隨機取出1個賦值給user_agent變數即可

**如下:

import random

useragentlist = [

"mozilla/5.0 (compatible; msie 9.0; windows nt 6.1; win64; x64; trident/5.0; .net clr 3.5.30729; .net clr 3.0.30729; .net clr 2.0.50727; media center pc 6.0)"

,"mozilla/5.0 (compatible; msie 8.0; windows nt 6.0; trident/4.0; wow64; trident/4.0; slcc2; .net clr 2.0.50727; .net clr 3.5.30729; .net clr 3.0.30729; .net clr 1.0.3705; .net clr 1.1.4322)",]

user_agent = random.choice(useragentlist)

在settings.py檔案中加入如下**:

from 

fake_useragent

import

useragent

ua = useragent()

user_agent = ua.random

在setting.py檔案中寫乙個useragentlist列表

useragentlist = [,]

在setting.py檔案中啟用**********_middlewares,並且把預設的注釋掉

**********_middlewares =

在middlewares.py檔案中增加以下**:

rom 

scrapy.**********middlewares.useragent

import

useragentmiddleware

from

amazon.settings

import

useragentlist

import

random

class 

myuseragentmiddleware(useragentmiddleware):

def

__init__

(self

, user_agent=

''):

self

.user_agent = user_agent

def

process_request

(self

, request

, spider):

agent = random.choice(

list

(useragentlist))

request.headers[

'user-agent'

] = agent

安裝fake-useragent庫(useragent的庫)

pip install fake-useragent

在middlewares.py檔案中匯入fake-useragent庫

from fake_useragent import useragent

在middlewares.py檔案中編寫乙個middleware中介軟體,

from 

fake_useragent

import

useragent

from

scrapy.**********middlewares.useragent

import

useragentmiddleware

class 

myuseragentmiddleware(useragentmiddleware):

def

__init__

(self

, user_agent=

''):

self

.user_agent = user_agent

def

process_request

(self

, request

, spider):

ua = useragent()

request.headers[

'user-agent'

] = ua.random

在setting.py檔案中啟用**********_middlewares,並且把預設的注釋掉

**********_middlewares =

scrapy 設定隨機UA

爬蟲過程中的反爬措施非常重要,其中設定隨機 user agent 是一項重要的反爬措施,scrapy 中設定隨機 ua 的方式有很多種,有的複雜有的簡單。首先,說一下常規情況不使用 scrapy 時的用法,比較方便的方法是利用fake useragent包,這個包內建大量的 ua 可以隨機替換,這比...

Scrapy中新增隨機UserAgent

首先如下圖的框架,我們需要清楚user agent的偽裝是在傳送請求的headers中,middlewares就是橋梁,傳送請求之前的位置可以進行處理request請求,也就是在這裡進行useragent的新增!注 列表的useragent,截圖我只保留了3個請忽略!第一種方法在setting中手動...

Scrapy增加隨機請求頭user agent

一般為了避免伺服器反爬蟲,當我們發出request時,需要增加一些隨機的請求頭資訊 header 然後就可以輕鬆的繞過伺服器的反偵察手段了。因此一般只要在middlewares.py檔案中新增加如下 然後每次request的時候,就會有隨機的user agent了,然後就可以有效的避免伺服器反爬蟲了...