robots txt詳細介紹

robots.txt基本介紹

當乙個搜尋機械人（有的叫搜尋蜘蛛）訪問乙個站點時，它會首先檢查該站點根目錄下是否存在robots.txt，如果存在，搜尋機械人就會按照該檔案中的內容來確定訪問的範圍；如果該檔案不存在，那麼搜尋機械人就沿著鏈結抓取。

另外，robots.txt必須放置在乙個站點的根目錄下，而且檔名必須全部小寫。

robots.txt寫作語法

首先，我們來看乙個robots.txt範例：

以上文字表達的意思是允許所有的搜尋機械人訪問

www.csswebs.org站點下的所有檔案。

具體語法分析：其中#後面文字為說明資訊；user-agent:後面為搜尋機械人的名稱，後面如果是*，則泛指所有的搜尋機械人；disallow:後面為不允許訪問的檔案目錄。

下面，我將列舉一些robots.txt的具體用法：

允許所有的robot訪問

user-agent: *

disallow:

或者也可以建乙個空檔案「/robots.txt」 file

禁止所有搜尋引擎訪問**的任何部分

user-agent: *

disallow: /

禁止所有搜尋引擎訪問**的幾個部分（下例中的01、02、03目錄）

user-agent: *

disallow: /01/

disallow: /02/

disallow: /03/

禁止某個搜尋引擎的訪問（下例中的badbot）

user-agent: badbot

disallow: /

只允許某個搜尋引擎的訪問（下例中的crawler）

user-agent: crawler

disallow:

user-agent: *

disallow: /

另外，我覺得有必要進行拓展說明，對robots meta進行一些介紹：

robots meta標籤的寫法：

robots meta標籤中沒有大小寫之分，name=」robots」表示所有的搜尋引擎，可以針對某個具體搜尋引擎寫為name=」baiduspider」。 content部分有四個指令選項：index、noindex、follow、nofollow，指令間以「,」分隔。

index 指令告訴搜尋機械人抓取該頁面；

robots meta標籤的預設值是index和follow，只有inktomi除外，對於它，預設值是index,nofollow。

這樣，一共有四種組合：

＜meta name=」robots」 content=」index,follow」＞

＜meta name=」robots」 content=」noindex,follow」＞

＜meta name=」robots」 content=」index,nofollow」＞

＜meta name=」robots」 content=」noindex,nofollow」＞

其中＜meta name=」robots」 content=」index,follow」＞可以寫成＜meta name=」robots」 content=」all」＞；

＜meta name=」robots」 content=」noindex,nofollow」＞可以寫成＜meta name=」robots」 content=」none」＞

目前看來，絕大多數的搜尋引擎機械人都遵守robots.txt的規則，而對於robots meta標籤，目前支援的並不多，但是正在逐漸增加，如著名搜尋引擎google就完全支援，而且google還增加了乙個指令「archive」，可以限制google是否保留網頁快照。例如：

＜meta name=」googlebot」 content=」index,follow,noarchive」＞

robots txt詳細介紹

詳細講解robots txt寫法

常見robots txt錯誤

如何建立robots txt檔案

robots txt詳細介紹

詳細講解robots txt寫法

常見robots txt錯誤

如何建立robots txt檔案

相關推薦