python3網路爬蟲學習 基本庫的使用(5)

2022-05-24 22:21:10 字數 926 閱讀 7377

分析robots協議:

1.robots協議

也稱為爬蟲協議,機械人協議,全稱為網路爬蟲排除標準,用來告訴爬蟲和搜尋引擎哪些頁面可以抓取,哪些頁面不可以抓取。通常放在乙個叫做robots.txt的文字檔案,一般放在**的根目錄下。當搜尋爬蟲訪問乙個站點時,會先檢查這個站點根目錄下是否有該檔案,如果存在會根據其中定義的爬取範圍來爬取,如果沒有,爬蟲會直接訪問所有可以直接訪問的頁面。

disallow:爬蟲不允許爬取的範圍,如果為 / 則表示所有都不可以爬取

allow:爬蟲允許爬取的範圍

每個爬蟲都有屬於自己的disallow和allow,當然robots檔案也可以為空

2.robotparser

該模組提供了乙個類robotfileparser,他可以根據robots.txt檔案來判斷乙個爬取爬蟲是否有許可權來爬取這個網頁

使用時可以只要在構造方法裡傳入robots.txt的鏈結即可

urllib.robotparser.robotfileparser(url='')

也可用他的方法:

from urllib.robotparser import robotfileparser

rp = robotfileparser()

#也可將下面那步省略,直接rp = robotfileparser()

rp.set_url('')

rp.read()

#也可以將這裡改為rp.parse(urlopen().read().decode('utf-8').split('/n'))

print(rp.can_fetch('*',''))

print(rp.can_fetch('*',""))

由此我們可以分析步驟:

1.傳入robot.txt鏈結

2.用read函式讀取

3.分析鏈結哪些檔案可以爬取

Python 3 網路爬蟲

python 原來還可以這樣玩 python爬蟲,破解有道翻譯介面引數 破解有道翻譯反爬蟲機制 python3網路爬蟲快速入門實戰解析 article details 78123502 python3網路爬蟲 五 python3安裝scrapy article details 60156205 py...

Python3 網路爬蟲 1

準備開始寫一些python3關於爬蟲相關的東西,主要是一些簡單的網頁爬取,給身邊的同學入門看。首先我們向網路伺服器傳送get請求以獲取具體的網頁,再從網頁中讀取html內容。python view plain copy print?coding utf 8 from urllib.request i...

初識Python3網路爬蟲

定義 網路爬蟲 web spider 又被稱為網頁蜘蛛,是一種按照一定的規則,自動地抓取 資訊的程式或者指令碼。爬蟲其實是通過編寫程式,模擬瀏覽器上網,然後讓其去網際網路上抓取資料的過程。爬蟲的價值 抓取網際網路上的資料,為我所用,有了大量的資料,就如同有了乙個資料銀行一樣,下一步就是如何將這些資料...