Python常見反爬蟲機制解決方案

2022-09-28 20:27:27 字數 1135 閱讀 5859

1、使用**

這種情況最好的辦法就是維護乙個**ip池,網上有很多免費的**ip,良莠不齊,可以通過篩選找到能用的。對於「頻繁點選」的情況,我們還程式設計客棧可以通過限制爬蟲訪問**的頻率來避免被**禁掉。

proxies =

requests:

import requests

response = re程式設計客棧quests.get(url=url, proxies=proxies)

urllib2.install_opener(opener) # 安裝opener,此後呼叫urlopen()時都會使用安裝過的opwww.cppcns.comener物件

response = urllib2.urlopen(url)

2、時間設定

適用情況:限制頻率情況。

requests,urllib2都可以使用time庫的sleep()函式:

import time

time.sleep(1)

3、偽裝成瀏覽器,或者反「反盜鏈」

有些**會檢查你是不是真的瀏覽器訪問,還是機器自動訪問的。這種情況,加上user-agent,表明你是瀏覽器訪問即可。有時還

會檢查是否帶referer資訊還會檢查你的referer是否合法,一般再加上referer。

headers = # 偽裝成瀏覽器訪問,適用於拒絕爬蟲的**

headers =

headers =

requests:

response = reques headers=headers)

urllib2:

import www.cppcns.comurllib, urllib2

req = urllib2.request(url=url, headers=headers)

response = urllib2.urlopen(req)

本文標題: python常見反爬蟲機制解決方案

本文位址:

爬蟲(一)反爬蟲機制

爬蟲用久了,總是會被封的。魯迅 有些 特別是一些陳年老站,沒有做過反爬蟲機制的,我們可以盡情地爬,愉快地爬,把它們的 資料全都爬下來。最多出於情懷考慮,我們爬慢一點,不給它的伺服器太大壓力。但是對於有反爬蟲機制的 我們不能這樣。最簡單的反爬蟲機制應該是u a校驗了。瀏覽器在傳送請求的時候,會附帶一部...

python3爬蟲 反爬蟲應對機制

前言 訪問終端限制 這種可通過偽造動態的ua實現 訪問次數限制 一般通過cookie ip定位,可通過禁用cookie,或使用cookie池 ip池來反制 訪問時間限制 延遲請求應對 盜鏈問題 通俗講就是,某個網頁的請求是有跡可循的,比如知乎的問題回答詳情頁,正常使用者行為必然是先進入問題頁,在進入...

python爬蟲常見反爬措施

1.ip封鎖 常見 反爬蟲首先考慮到會不會對使用者產生誤傷,舉個例子,在校園網內,有台機器對 持續高頻繁產生請求,校園網涉及使用者過多,但是如果封鎖ip那麼會對校園中的使用者產生誤傷,喪失了許多使用者量,就拿某寶那麼大的公司來說,不到萬不得已時,不會對ip進行長時間或者進行封鎖。解決方案 1.採用修...