python 爬蟲2 隱藏自己

方法一：

head['
user-agent
'] = '
'req =urllib.request.request(url, data, head)
response = urllib.request.urlopen(req)

只能在request物件上加head，而urlopen(url, data, head)是錯誤的

方法二：

req =urllib.request.request(url, data)
req.add_header(
'user-agent
', '
')

先生成req，在動態新增

二、但高頻率多次訪問乙個**，一樣會被伺服器發現

解決辦法一：延遲提交時間

import
time
while
true:
word = input('
請輸入要翻譯的英文（「q!」退出程式）：')
if word == 'q!'
: 
break
........
time.sleep(5)

解決辦法二：使用**

（工作原理）把需要訪問的內容告訴**，**把它看到的所有東西發給我

但免費的ip位址可能不穩定，因此我們可以建立乙個ip list，多加幾個ip進去，每次隨機使用乙個。還可以建立乙個採集ip的程式

random.choice(list)

Python學習筆記55 爬蟲（隱藏）

1.為了隱藏訪問方式，可以通過兩種方式方法一直接設定乙個字典，作為引數傳給request，通過修改request的headers引數修改 head req urllib.request.request url,data,head 方法二在request生成之後通過add header 方法修改...

python爬蟲（2）爬蟲基本流程

網路爬蟲又被稱為網頁蜘蛛，網路機械人，在foaf社群中間，更經常的稱為網頁追逐者是一種按照一定的規則，自動地抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻自動索引模擬程式或者蠕蟲。其實通俗的講就是通過程式去獲取web頁面上自己想要的資料，也就是自動抓取資料模擬瀏覽器開啟...

爬蟲 2初學Python網路爬蟲

2 網路爬蟲的限制 3 robotst協議 4 robots協議的遵守方式 web伺服器預設接收人類訪問，受限於編寫水平和目的，網路爬蟲將會為web伺服器帶來巨大的資源開銷伺服器上的資料有產權歸屬，網路爬蟲獲取資料後牟利將帶來法律風險網路爬蟲可能具備突破簡單訪問控制的能力，獲得被保護資料從而洩...

python 爬蟲2 隱藏自己

Python學習筆記55 爬蟲（隱藏）

python爬蟲 （2）爬蟲基本流程

爬蟲 2初學Python網路爬蟲

相關推薦

python爬蟲（2）爬蟲基本流程