robots檔案的Crawl delay是什麼意思

2021-05-28 01:07:27 字數 480 閱讀 1093

robots.txt檔案設定crawl-delay注要原因是蜘蛛程式爬的過快,會給伺服器照成負擔,影響正常的**展示速度。

最近檢視部落格大巴 的robots.txt檔案發現乙個以前從沒見到到的設定方式crawl-delay:100

部落格大巴robots.txt檔案如下

user-agent: *

crawl-delay: 100

disallow: /files/

disallow: /user/

通過搜尋我了解以下內容

crawl-delay翻譯成中文意思是抓取延遲

後面的數值100表示告訴蜘蛛程式,以秒為單位的最低延時。如果crawler頻率對您的伺服器是乙個負擔,您可以將這個延時設定為任何您認為恰當的數字,每間隔100s來爬行一次。

這個設定似乎只針對於大站,設定crawl-delay注要原因是蜘蛛程式爬的過快,會給伺服器照成負擔,影響正常的**展示速度。

robots協議檔案的幾種寫法及示例

語法及萬用字元 1 user agent 定義搜尋引擎 2 disallow 定義禁止蜘蛛爬取的頁面或目錄 3 allow 定義允許蜘蛛爬取的頁面或目錄 4 匹配url結尾的字元 5 匹配0個或多個任意字元 示例 1 user agent disallow admin disallow abc 注 ...

站點下的robots

面試某軟,被面試官問道 你做爬蟲。知不知道非常多站點下都有個robots檔案?答曰 不知。於是面試官給我演示了一遍 遂卒。首戰慘敗。下來查了維基百科。基本了解robots。比方必應搜尋www.bing.com的根資料夾下有這麼乙個檔案 其內容例如以下 user agent msnbot media ...

爬蟲的Robots協議

開發者對於網路爬蟲的規範的公告,你可以不遵守可能存在法律風險,但盡量去遵守 robots協議 在網頁的根目錄 robots.txt 如www.baidu.com robots.txt robots協議的基本語法 代表所有,代表根目錄 user agent user agent代表 allow 代表執...