robots協議檔案的幾種寫法及示例

2021-10-03 18:16:05 字數 1708 閱讀 6078

語法及萬用字元:

1)user-agent: 定義搜尋引擎;

2)disallow: 定義禁止蜘蛛爬取的頁面或目錄;

3)allow: 定義允許蜘蛛爬取的頁面或目錄;

4)$ 匹配url結尾的字元;

5)* 匹配0個或多個任意字元;

示例:1)user-agent: *

disallow: /admin/

disallow: /abc/

注:禁止所有的搜尋引擎爬取admin和abc目錄及子目錄;

2)user-agent: *

allow: /admin/seo/

disallow: /admin/

注:禁止所有搜尋引擎爬取admin目錄及子目錄,但可以爬取admin目錄下的seo

目錄;(allow必須在前面,disallow寫在後)

3)user-agent: *

disallow: /abc/.htm$

注:禁止所有搜尋引擎爬取abc目錄及子目錄下以.htm為字尾的url;

4)user-agent: *

disallow: /?*

注:禁止所有搜尋引擎爬取有?的頁面;

注:禁止所有搜尋引擎爬取所有;

6)user-agent: *

disallow: /folder1/

user-agent: mediapartners-google

allow: /folder1/

注:禁止所有搜尋引擎爬取folder1,但 mediapartners-google 漫遊器可以在頁

面上顯示 adsense 廣告;

7)user-agent: *

disallow: /abc*/

注:禁止所有搜尋引擎爬取以abc開頭的所有目錄及子目錄;

其他屬性:

1)指定robot協議版本號:

robot-version: version 2.0

2)在指定時間段搜尋引擎才可以爬取指定url

visit-time: 0100-1300 允許在凌晨1點到3點之間訪問

3)限制url讀取頻率

request-rate: 40/1m 0800-1300 在8點到13點之間以每分鐘40次的頻率訪問

robots meta標籤:

屬性說明:

1)all:檔案將被檢索,且頁面上的鏈結可以被查詢;預設為all;

2)none:檔案不被檢索,且頁面上的鏈結也不可以被檢索;

3)index:檔案將被檢索;

4)follow:頁面上的鏈結可以被檢索;

5)noindex:檔案不被檢索;

6)nofollow:頁面上的鏈結不被檢索;

組合運用:

1)可以抓取本頁且可以順著本頁繼續索引其他鏈結

也可以寫成

2)不可以抓取本頁但可以順著本頁繼續索引其他鏈結

3)可以抓取本頁但不可以順著本頁繼續索引其他鏈結

4)不可以抓取本頁且不可以順著本頁繼續索引其他鏈結

也可以寫成

爬蟲的Robots協議

開發者對於網路爬蟲的規範的公告,你可以不遵守可能存在法律風險,但盡量去遵守 robots協議 在網頁的根目錄 robots.txt 如www.baidu.com robots.txt robots協議的基本語法 代表所有,代表根目錄 user agent user agent代表 allow 代表執...

robots檔案的Crawl delay是什麼意思

robots.txt檔案設定crawl delay注要原因是蜘蛛程式爬的過快,會給伺服器照成負擔,影響正常的 展示速度。最近檢視部落格大巴 的robots.txt檔案發現乙個以前從沒見到到的設定方式crawl delay 100 部落格大巴robots.txt檔案如下 user agent craw...

oracle url的幾種寫法

jdbc oracle thin example jdbc oracle thin 注意這裡的格式,後面有 這是與使用sid的主要區別。這種格式是oracle 推薦的格式,因為對於集群來說,每個節點的sid 是不一樣的,但是service name 確可以包含所有節點。jdbc oracle thi...