python爬取指定的搜尋頁面

2021-10-25 06:09:41 字數 947 閱讀 1764

# 功能:  進行爬蟲專案編寫

import requests

if __name__ == '__main__':

'''useragent:請求載體身份標識

ua檢測:當使用者訪問乙個門戶**的時候,**會自動的檢測對應的訪問載體的身份標識,如果檢測到載體的身份

標識為某一款瀏覽器,則表明當前的請求時乙個正常的請求,是普通使用者通過瀏覽器物件而發起的乙個請求資訊.

但是如果檢測到某乙個請求並不是通過瀏覽器物件而發起的請求,則表明該請求資料物件一定為乙個爬蟲資訊,則

伺服器端就會拒絕該爬蟲請求資訊,這種機制也是門戶**反爬蟲的一種機制。

為了使得爬蟲能夠對一些具有反爬蟲機制的**進行資訊爬取操作,所以要進行ua偽裝

ua偽裝:

'''#進行ua偽裝,將useragent分裝到乙個字典物件當中去,user-agent可以到瀏覽器當中通過抓包工具來獲取

#對包含指定關鍵字的網頁資料資訊進行採集

#1.指定url位址,當前要進行查詢的關鍵值為清之羽

# 'url = ''

#2.處理url引數值將字封裝到字典物件當中之後,就不用將查詢資訊資料跟到url後面去了

key=input('請輸入關鍵值')

par=

response=requests.get(url,params=par,headers=headers)

response.encoding='utf-8'#有時候所爬取的網頁會發生亂碼的現象,所以要對其進行編碼

page_text=response.text#獲取請求的文字資訊

filename=key+'.html'

with open(filename,'w',encoding='utf-8') as fp:

fp.write(page_text)

print("檔案儲存成功")

爬取搜狗搜尋頁面

功能,爬取搜狗搜尋的頁面,儲存到本地 import requests from tkinter import def func search word entry key word.get print word param param query word ua偽裝 headers url get方...

python爬取頁面內容,並統計指定欄位的數量

整體思路 1 獲取想要爬取頁面的url 2 應用requests beautifulsoup庫爬取到頁面內容,找到所要統計欄位的規律,以xml格式儲存到本地檔案中 3 讀取儲存的本地檔案內容 4 通過split切分獲取指定欄位的數量 usr bin env python coding utf 8 i...

python爬取天貓搜尋頁面產品標題

為了方便演示,這裡只爬取搜尋結果的第一頁,且無儲存 據說用lxml解析網頁更快 titles soup.select j itemlist div div p.producttitle a 在elements介面點網頁定位到 右鍵選copy copy selector,複製css途徑,若要篩選全部型...