python爬蟲(簡易網頁採集器)

2021-10-02 16:03:09 字數 1279 閱讀 1850

爬蟲基本流程:

1、指定url

2、基於requests模組發起請求

3、獲取響應物件中的資料值

4、持久化儲存

關於爬蟲的君子協議:robots.txt 在**名後加/robots.txt檢視可以爬取的資訊

如****:

user-agent(請求載體的身份標識)

開啟瀏覽器,按f12出現抓包工具

如圖:

可以使用此user-agent,圖示為使用qq瀏覽器的身份標識

(其中xhr中有ajax請求)

最終結果:

具體**如下:

import requests

#說明該請求是乙個正常的請求,但是,如果請求到的載體身份標識不是某一款瀏覽器,

#則表示該請求不是乙個正常請求(爬蟲),則伺服器就很有可能拒絕該次請求

#ua:user-agent(請求載體得身份標識)

#ua偽裝:讓爬蟲對應的請求的載體身份標識偽裝成一款瀏覽器

#ua偽裝 將對應的user-agent封裝到乙個字典中

headers=

#step1 指定url

url = ''#這個問號保留也可不保留也可

#處理url攜帶的引數(封裝到字典中)

kw = input("entry a word:")

param=

#step2 基於requests模組發起請求

#對指定的的url發起的請求對應的url是攜帶引數的,並且請求過程中處理了引數

response = requests.get(url=url,params=param,headers=headers)

#step3 獲取響應物件的資料值

page_txt = response.text

#step4 持久化儲存

filename = kw+'.html'

with open(filename,'w',encoding='utf-8')as fp:

fp.write(page_txt)

print(filename,"儲存成功!")

Python天氣預報採集器(網頁爬蟲)

python是一門很強大的語言,在實現爬蟲方面也十分方便。爬蟲簡單說來包括兩個步驟 獲得網頁文字 過濾得到資料。1 獲得html文字。python在獲取html方面十分方便,寥寥數行 就可以實現我們需要的功能。1 defgethtml url 2 page urllib.urlopen url 3 ...

requests之網頁採集器

ua user agent 請求載體的身份標識 說明該請求是乙個正常的請求。否則為不正常的請求 爬蟲 則伺服器有可能拒絕 ua偽裝 讓爬蟲對應的請求載體身份標識偽裝成某一款瀏覽器 import requests if name main ua 偽裝 將對應的user agent封裝到乙個字典中 he...

小白如何選擇採集器 爬蟲

不管是小白,還是大牛,選擇一款有用的採集器使你的工作事半功倍!爬蟲vs採集器,誰更能適合小白使用?目前,我所了解的採集器有 八爪魚採集器,火車採集器,爬山虎採集器,后羿採集器,et採集器,vg採集器,webscraper 等等,這些採集器都是我所了解和操作過的,還有其他的採集器也大同小異。這些採集器...