python爬取指定的搜尋頁面

# 功能：進行爬蟲專案編寫 import requests if __name__ == '__main__': '''useragent:請求載體身份標識 ua檢測:當使用者訪問乙個門戶**的時候，**會自動的檢測對應的訪問載體的身份標識，如果檢測到載體的身份標識為某一款瀏覽器，則表明當前的請求時乙個正常的請求，是普通使用者通過瀏覽器物件而發起的乙個請求資訊. 但是如果檢測到某乙個請求並不是通過瀏覽器物件而發起的請求，則表明該請求資料物件一定為乙個爬蟲資訊，則伺服器端就會拒絕該爬蟲請求資訊，這種機制也是門戶**反爬蟲的一種機制。為了使得爬蟲能夠對一些具有反爬蟲機制的**進行資訊爬取操作，所以要進行ua偽裝 ua偽裝： '''#進行ua偽裝,將useragent分裝到乙個字典物件當中去,user-agent可以到瀏覽器當中通過抓包工具來獲取 #對包含指定關鍵字的網頁資料資訊進行採集 #1.指定url位址,當前要進行查詢的關鍵值為清之羽 # 'url = '' #2.處理url引數值將字封裝到字典物件當中之後，就不用將查詢資訊資料跟到url後面去了 key=input('請輸入關鍵值') par= response=requests.get(url,params=par,headers=headers) response.encoding='utf-8'#有時候所爬取的網頁會發生亂碼的現象,所以要對其進行編碼 page_text=response.text#獲取請求的文字資訊 filename=key+'.html' with open(filename,'w',encoding='utf-8') as fp: fp.write(page_text)

print("檔案儲存成功")

python爬取指定的搜尋頁面

爬取搜狗搜尋頁面

python爬取頁面內容，並統計指定欄位的數量

python爬取天貓搜尋頁面產品標題

python爬取指定的搜尋頁面

爬取搜狗搜尋頁面

python爬取頁面內容，並統計指定欄位的數量

python爬取天貓搜尋頁面產品標題

相關推薦