爬蟲學習(2)

2021-09-27 06:53:33 字數 1242 閱讀 2757

設定header 偽裝

有些**沒有header裡面設定的身份是不會響應請求的,所以為了能響應請求,加入身份認證

import urllib  

import urllib2

url = ''

user_agent = 'mozilla/4.0 (compatible; msie 5.5; windows nt)' #瀏覽器**身份認證

values =

headers =

data = urllib.urlencode(values)

request = urllib2.request(url, data, headers)

response = urllib2.urlopen(request)

page = response.read()

對付防盜煉 使用referer

對header可以改為

headers =

一些其他header

proxy(**)的設定

urllib2 缺省會使用環境變數 http_proxy 來設定 http proxy。假如乙個**它會檢測某一段時間某個ip 的訪問次數,如果訪問次數過多,它會禁止你的訪問。所以你可以設定一些**伺服器來幫助你做工作,每隔一段時間換乙個**,**君都不知道是誰在搗鬼了,這酸爽!

下面一段**說明了**的設定用法

import urllib2

enable_proxy = true

proxy_handler =urllib2.proxyhandler()

null_proxyhandler = urllib2.proxyhandler({})

if enable_proxy:

opener = urllib2.build_opener(proxy_handler)

else:

opener = urllib2.build_opener(null_proxyhandler)

urllib2.install_opener(opener)

設定timeout

import urllib

import urllib2

url = 「

response = urllib2.urlopen(url,data,timeout = 10)

categories:python, 爬蟲

爬蟲學習筆記2

在爬取網頁資訊時有時會遇到有賬號資訊輸入的網頁,需要填入賬號密碼後跳轉才能進行爬取資訊,但我們常用的http協議是無狀態協議,它的問題在於即便在登陸面板登陸狀態成功,在你訪問個人主頁時是不會跳轉的因為伺服器預設你是新的請求而沒有登入狀態。將html頁面中使用審查元素將本頁面的資料報解析後,在head...

爬蟲學習Day2

import requests if name main url city input enter a city data headers response requests.post url url,data data,headers headers page text response.text...

Python基礎學習 爬蟲小試2

import urllib.parse import urllib.request data urllib.parse.urlencode url request urllib.request.request url data response urllib.request.urlopen requ...