爬蟲403 被伺服器拒絕

2021-10-17 18:22:25 字數 996 閱讀 5101

import urllib.request as request

src=![

""]with request.urlopen(src)

as response:

data=response.read(

).decode(

'utf-8'

)print

(data)

在這種情況下直接對網路進行連線,一般情況下會被伺服器拒絕出現這樣的報錯「」「urllib.error.httperror: http error 403: forbidden」「」

這種情況是**認為你不是普通使用者操作,所以我們需要模擬普通使用者。

一般使用者使用會給**傳送乙個這總系統和瀏覽器的資訊,所以我們需要模擬。也要向**傳送乙個這樣的資訊。

#抓取ptt電影版的網頁原始碼(html)

import urllib.request as req

url=

""#建立乙個request物件,附加request headers 的資訊

request=req.request(url,headers=

)with req.urlopen(request)

as response:

data=response.read(

).decode(

"utf-8"

)#資料解析

import bs4

root=bs4.beautifulsoup(data,

"html.parser"

)titles=root.find_all(

"div"

,class_=

"title"

)print

(titles)

下邊這行**就可以爬取ptt**的題目資訊

mysql伺服器拒絕鏈結 mysql伺服器拒絕連線

1 連線mysql伺服器報錯 通過 mysql hhost u user p 命令連線mysql伺服器時,報以下錯誤 error 1130 hy000 host hostname is not allowed to connect to this mysql server 2 原因 這是因為mysq...

伺服器反爬蟲攻略

所有爬蟲 user agent disallow 遮蔽google爬蟲訪問後台管理 user agent googlebot disallow admin 遮蔽sosospider訪問後台管理 add by lin at 2009 11 02 禁止flv的訪問 rewritecond flv nc ...

處理hadoop拒絕連線hdfs伺服器的問題

core site.xml的配置 fs.defaultfs hdfs hadoop101 9000 9000埠,怎們會報無法連線8020埠的錯誤?看了好多部落格,排除防火牆的原因,終於自己想到了原因並解決了這個bug。主機裝了兩種版本的hadoop,apache版和cdh版,兩個版本的hdfs埠衝突...