爬蟲學習筆記num3

2021-10-24 20:34:21 字數 944 閱讀 2484

基於筆記二中的get傳送請求,之前沒有考慮ua偽裝,本次將get請求中的params引數和headers引數進行賦值。

對於url攜帶的引數要封裝到字典中。

import requests

#處理url中攜帶的引數要封裝到字典中

url =

"www.***.com"

kw =

input

("enter a word:"

)param =

# 對指定url發起請求對應的url是攜帶引數,並且請求過程中處理了引數

#拼接的位址就為www.***.com/port=200

get(url = url ,params = param)

ua偽裝屬於一種反爬機制

ua檢測:門戶**伺服器會檢測對應的請求載體的身份標識,如檢測到請求是瀏覽器,說明該請求是正常請求。如果檢測請求不是基於瀏覽器的請求則說明是不正常的請求,就要進行攔截。所以讓爬蟲對應 的請求載體標識偽裝成瀏覽器。

headers =

get(url=url,params=param,headers = headers)

** post請求中data相當於get請求中params**

爬蟲學習筆記num1

1.通用爬蟲 抓取系統的重要做成部分,一整張頁面資料。2.聚焦爬蟲 建立在通用爬蟲的上,抓取頁面的特定區域性內容。3.增量式爬蟲 檢測 中的資料是否額更新,抓取更新的部分。爬蟲通過則略或手段,破解反爬機制,來爬取網頁的資料 超文字傳輸協議,吳福氣與客戶端資料互動的一種形式。user agent 請求...

爬蟲學習筆記num4

post url kw input 請輸入要翻譯的內容 headers data response post url url data data,headers headers 響應資料是一組json資料,獲取相應資料用json 方法,json 方法返回obj物件 必須確認響應資料是json型別才可...

python爬蟲學習筆記(3)

一般用於傳送請求和接收響應 url為必填引數,後兩個可不填 urllib.request.urlopen url,data,timeout urlopen方法返回乙個httpresponse物件 urllib.request.urlopen 此方法無法指定請求頭部,而有時必須指定請求頭部以避免被瀏覽...