python 爬蟲2 隱藏自己

2021-08-21 22:29:03 字數 793 閱讀 7638

方法一:

head['

user-agent

'] = '

'req =urllib.request.request(url, data, head)

response = urllib.request.urlopen(req)

只能在request物件上加head,而urlopen(url, data, head)是錯誤的

方法二:

req =urllib.request.request(url, data)

req.add_header(

'user-agent

', '

')

先生成req,在動態新增

二、但高頻率多次訪問乙個**,一樣會被伺服器發現

解決辦法一:延遲提交時間

import

time

while

true:

word = input('

請輸入要翻譯的英文(「q!」退出程式):')

if word == 'q!'

:

break

........

time.sleep(5)

解決辦法二:使用**

(工作原理)把需要訪問的內容告訴**,**把它看到的所有東西發給我

但免費的ip位址可能不穩定,因此我們可以建立乙個ip list,多加幾個ip進去,每次隨機使用乙個。還可以建立乙個採集ip的程式

random.choice(list)

Python學習筆記55 爬蟲(隱藏)

1.為了隱藏訪問方式,可以通過兩種方式 方法一 直接設定乙個字典,作為引數傳給request,通過修改request的headers引數修改 head req urllib.request.request url,data,head 方法二 在request生成之後通過add header 方法修改...

python爬蟲 (2)爬蟲基本流程

網路爬蟲 又被稱為網頁蜘蛛,網路機械人,在foaf社群中間,更經常的稱為網頁追逐者 是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻 自動索引 模擬程式或者蠕蟲。其實通俗的講就是通過程式去獲取web頁面上自己想要的資料,也就是自動抓取資料 模擬瀏覽器開啟...

爬蟲 2初學Python網路爬蟲

2 網路爬蟲的限制 3 robotst協議 4 robots協議的遵守方式 web伺服器預設接收人類訪問,受限於編寫水平和目的,網路爬蟲將會為web伺服器帶來巨大的資源開銷 伺服器上的資料有產權歸屬,網路爬蟲獲取資料後牟利將帶來法律風險 網路爬蟲可能具備突破簡單訪問控制的能力,獲得被保護資料 從而洩...