Robots協議基礎

2021-10-16 17:13:39 字數 1843 閱讀 1897

前言

寫這個robots協議的文章呢是因為我今天在攻防世界上做題的時候碰到一道關於robots協議的題目,當然這道題也是比較簡單,我們先簡單的寫乙個解題思路然後介紹robots協議。

題目

我們點開這個**之後發現是乙個空白頁

我們根據題目的提示在url中輸入robots.txt(為什麼要輸入robots.txt,這個與robots協議有關,後面會說明)我們發現頁面發生了變化。

robots協議也叫robots.txt(統一小寫)是一種存放於**根目錄下的ascii編碼的文字檔案,它通常告訴網路搜尋引擎的漫遊器(又稱網路蜘蛛),此**中的哪些內容是不應被搜尋引擎的漫遊器獲取的,哪些是可以被漫遊器獲取的。

作用:**告知網路爬蟲哪些頁面可以爬取,哪些不能爬取

基本協議語法:

# 注釋

* 代表所有

./代表根目錄

user-agent: * # 代表的是那些爬蟲

disallow: / # 代表不允許爬蟲訪問的目錄

例:京東的robots協議

可以看到京東對爬蟲的限制:

# 對於任何的網路爬蟲**,遵守如下協議

user-agent: *

disallow: /?*

disallow: /pop/*.html

disallow: /pinpai/*.html?*

# 以下四個網路爬蟲不允許爬取任何資源

user-agent: etaospider

disallow: /

user-agent: huihuispider

disallow: /

user-agent: gwdangspider

disallow: /

user-agent: wochachaspider

disallow: /

robots.txt檔案放置在**根目錄下。舉例來說,當spider訪問乙個**時,首先會檢查該**中是否存在robots.txt這個檔案,如果 spider找到這個檔案,它就會根據這個檔案的內容,來確定它訪問許可權的範圍。(並不是所有的**都有robots協議)

網路爬蟲:自動或人工識別robots.txt,再進行內容爬取

約束性:robots協議是建議但並非約束性,網路爬蟲可以不遵守,但存在法律風險。

robots協議是**出於安全和隱私考慮,防止搜尋引擎抓取敏感資訊而設定的。搜尋引擎的原理是通過一種爬蟲spider程式,自動蒐集網際網路上的網頁並獲取相關資訊。而鑑於網路安全與隱私的考慮,每個**都會設定自己的robots協議,來明示搜尋引擎,哪些內容是願意和允許被搜尋引擎收錄的,哪些則不允許。搜尋引擎則會按照robots協議給予的許可權進行抓取。

****

京東**

2023年10月25日,京東**正式將一淘網的搜尋爬蟲遮蔽,以防止一淘網對其的內容抓取。

robots 協議介紹

robots.txt怎麼寫 1 允許所有搜尋引擎訪問 user agent disallow 或者user agent allow 在這裡大家要注意下,可以最直接的建乙個空檔案 robots.txt 然後放到 的根目錄。2 禁止所有搜尋引擎訪問 user agent disallow 或者user ...

爬蟲協議robots

robots協議 也稱為爬蟲協議 機械人協議等 全稱是 網路爬蟲排除標準 robots exclusion protocol 通過robots協議告訴搜尋引擎哪些頁面可以抓取,哪些頁面不能抓取。本文將詳細介紹爬蟲協議robots 當乙個搜尋蜘蛛訪問乙個站點時,它會首先檢查該站點根目錄下是否存在rob...

robots 協議介紹

robots.txt怎麼寫 1 允許所有搜尋引擎訪問 user agent disallow 或者user agent allow 在這裡大家要注意下,可以最直接的建乙個空檔案 robots.txt 然後放到 的根目錄。2 禁止所有搜尋引擎訪問 user agent disallow 或者user ...