python爬蟲筆記 可爬與不可爬

2021-10-07 09:19:50 字數 434 閱讀 7487

如何檢視**的robots協議呢,很簡單,在**的網域名稱後加上/robots.txt就可以了。

比如**的robots協議 (

協議裡最常出現的英文是allow和disallow,allow代表可以被訪問,disallow代表禁止被訪問。

爬蟲只是一種技術或工具,人們可以利用它去做有用的事,也能利用它去搞破壞。

1、惡意消耗別人的伺服器資源,是一件不道德的事,惡意爬取一些不被允許的資料,還可能會引起嚴重的法律後果。

2、工具在你手中,如何利用它是你的選擇。當你在爬取**資料的時候,別忘了先看看**的robots協議是否允許你去爬取。

3、同時,限制好爬蟲的速度,對提供資料的伺服器心存感謝,避免給它造成太大壓力,維持良好的網際網路秩序,也是我們該做的事。#from time import sleep

Python筆記 爬蟲

用到的庫 urllib。在python3.x中 urlretrieve函式也在urllib.request下,因此只需要匯入request即可。from urllib import request基本的思路是 用request.urlopen 開啟網頁 url.read decode 得到網頁原始碼...

Python爬蟲筆記

import requests 匯入requests模組 1.傳送請求 import requests r requests.get 2.定製headers 這種情況適用於爬取返回的結果出現 抱歉 無法訪問 等字眼時,這時需要模擬乙個介面伺服器自行爬取的狀態 import requests r re...

Python 爬蟲筆記

requests scrapy 兩個解析 html 文件的有力工具 lxml beautifulsoup4,一切暴露在網際網路中的資料,都不是絕對安全的,但絕對是需要費腦筋才需要得到的,爬蟲很簡單學,真正難的是反爬。requests 模組常用方法 單次請求 每傳送一次請求,就需要呼叫一次 多次請求 ...