robots 協議介紹

2021-08-26 08:23:01 字數 1357 閱讀 8255

robots.txt怎麼寫

1、允許所有搜尋引擎訪問

user-agent: *

disallow:

或者user-agent: *

allow: /

在這裡大家要注意下,可以最直接的建乙個空檔案 「robots.txt」然後放到**的根目錄。

2、禁止所有搜尋引擎訪問

user-agent: *

disallow: /

或者user-agent: *

allow:

3、禁止所有搜尋引擎訪問**中的幾個部分,在這裡我用a、b、c目錄來代替

user-agent: *

disallow: /a/

disallow: /b/

disallow: /c/

如果是允許,則是

allow: /a/

allow: /b/

allow: /c/

4、禁止某個搜尋引擎的訪問,我用w來代替

user-agent: w

disallow: /

或user-agent: w

disallow: /d/*.htm

在disallow:後面加 /d/*.htm的意思是禁止訪問/d/目錄下的所有以」.htm」為字尾的url,包含子目錄。

5、只允許某個搜尋引擎的訪問,我用e來代替

user-agent: e

disallow:

在disallow:後面不加任何東西,意思是僅允許e訪問該**。

6、使用」$」限制訪問url

user-agent: *

allow: .htm$

disallow: /

意思是僅允許訪問以」.htm」為字尾的url

7、禁止訪問**中所有的動態頁面

user-agent: *

disallow: /*?*

8、禁止搜尋引擎f抓取**上所有

意思是只允許引擎抓取網頁,禁止抓取任何(嚴格來說,是禁止抓取jpg、jpeg、gif、png、bmp格式的。)

9、只允許搜尋引擎e抓取網頁和.gif格式

意思是只允許抓取網頁和gif格式,不允許抓取其他格式

robots 協議介紹

robots.txt怎麼寫 1 允許所有搜尋引擎訪問 user agent disallow 或者user agent allow 在這裡大家要注意下,可以最直接的建乙個空檔案 robots.txt 然後放到 的根目錄。2 禁止所有搜尋引擎訪問 user agent disallow 或者user ...

爬蟲協議robots

robots協議 也稱為爬蟲協議 機械人協議等 全稱是 網路爬蟲排除標準 robots exclusion protocol 通過robots協議告訴搜尋引擎哪些頁面可以抓取,哪些頁面不能抓取。本文將詳細介紹爬蟲協議robots 當乙個搜尋蜘蛛訪問乙個站點時,它會首先檢查該站點根目錄下是否存在rob...

Robots協議基礎

前言 寫這個robots協議的文章呢是因為我今天在攻防世界上做題的時候碰到一道關於robots協議的題目,當然這道題也是比較簡單,我們先簡單的寫乙個解題思路然後介紹robots協議。題目 我們點開這個 之後發現是乙個空白頁 我們根據題目的提示在url中輸入robots.txt 為什麼要輸入robot...