反反爬蟲相關機制

來自於scrapy官方文件描述：

這裡是乙個例子:

**********_middlewares =

class scrapy.contrib.**********middleware.**********middleware

process_request() 必須返回以下其中之一：乙個 none 、乙個 response 物件、乙個 request 物件或

raise ignorerequest:

引數:引數:

scrapy**ip、uesr-agent的切換都是通過**********_middlewares進行控制，我們在settings.py同級目錄下建立middlewares.py檔案，包裝所有請求。

# middlewares.py
#!/usr/bin/env python
# -*- coding:utf-8 -*-
import random
import base64
from settings import user_agents
from settings import proxies
# 隨機的user-agent
class randomuseragent(object):
def process_request(self, request, spider):
useragent = random.choice(user_agents)
request.headers.setdefault("user-agent", useragent)
class randomproxy(object):
def process_request(self, request, spider):
proxy = random.choice(proxies)
if proxy['user_passwd'] is none:
# 沒有**賬戶驗證的**使用方式
# 對賬戶密碼進行base64編碼轉換
base64_userpasswd = base64.b64encode(proxy['user_passwd'])
# 對應到**伺服器的信令格式裡
request.headers['proxy-authorization'] = 'basic ' + base64_userpasswd
request.meta['proxy'] = "http://" + proxy['ip_port']

為什麼http**要使用base64編碼：

http**的原理很簡單，就是通過http協議與**伺服器建立連線，協議信令中包含要連線到的遠端主機的ip和埠號，如果有需要身份驗證的話還需要加上授權資訊，伺服器收到信令後首先進行身份驗證，通過後便與遠端主機建立連線，連線成功之後會返回給客戶端200，表示驗證通過，就這麼簡單，下面是具體的信令格式：

user-agent: openfetion其中proxy-authorization是身份驗證資訊，basic後面的字串是使用者名稱和密碼組合後進行base64編碼的結果，也就是對username:password進行base64編碼。

http/1.0 200 connection established

ok，客戶端收到收面的信令後表示成功建立連線，接下來要傳送給遠端主機的資料就可以傳送給**伺服器了，**伺服器建立連線後會在根據ip位址和埠號對應的連線放入快取，收到信令後再根據ip位址和埠號從快取中找到對應的連線，將資料通過該連線**出去。

user_agents = [
"mozilla/5.0 (compatible; msie 9.0; windows nt 6.1; win64; x64; trident/5.0; .net clr 3.5.30729; .net clr 3.0.30729; .net clr 2.0.50727; media center pc 6.0)",
"mozilla/5.0 (compatible; msie 8.0; windows nt 6.0; trident/4.0; wow64; trident/4.0; slcc2; .net clr 2.0.50727; .net clr 3.5.30729; .net clr 3.0.30729; .net clr 1.0.3705; .net clr 1.1.4322)",
"mozilla/4.0 (compatible; msie 7.0b; windows nt 5.2; .net clr 1.1.4322; .net clr 2.0.50727; infopath.2; .net clr 3.0.04506.30)",
"mozilla/5.0 (windows; u; windows nt 5.1; en-us; rv:1.8.1.2pre) gecko/20070215 k-ninja/2.1.1",
"mozilla/5.0 (windows; u; windows nt 5.1; zh-cn; rv:1.9) gecko/20080705 firefox/3.0 kapiko/3.0",
"mozilla/5.0 (x11; linux i686; u;) gecko/20070322 kazehakase/0.4.5"
]

免費**ip可以網上搜尋，或者付費購買一批可用的私密**ip：

proxies = [,,
,,
]

**********_middlewares =

反反爬蟲相關機制

Redis相關機制

反反爬蟲策略

爬蟲一文了解反反爬蟲及其相關技術

反反爬蟲相關機制

Redis相關機制

反反爬蟲策略

爬蟲 一文了解反反爬蟲及其相關技術

相關推薦

爬蟲一文了解反反爬蟲及其相關技術