robots txt詳細介紹

2021-04-14 02:03:50 字數 2073 閱讀 6960

robots.txt基本介紹

當乙個搜尋機械人(有的叫搜尋蜘蛛)訪問乙個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜尋機械人就會按照該檔案中的內容來確定訪問的範圍;如果該檔案不存在,那麼搜尋機械人就沿著鏈結抓取。

另外,robots.txt必須放置在乙個站點的根目錄下,而且檔名必須全部小寫。

robots.txt寫作語法

首先,我們來看乙個robots.txt範例:

以上文字表達的意思是允許所有的搜尋機械人訪問

www.csswebs.org站點下的所有檔案。

具體語法分析:其中#後面文字為說明資訊;user-agent:後面為搜尋機械人的名稱,後面如果是*,則泛指所有的搜尋機械人;disallow:後面為不允許訪問的檔案目錄。

下面,我將列舉一些robots.txt的具體用法:

允許所有的robot訪問

user-agent: *

disallow:

或者也可以建乙個空檔案 「/robots.txt」 file

禁止所有搜尋引擎訪問**的任何部分

user-agent: *

disallow: /

禁止所有搜尋引擎訪問**的幾個部分(下例中的01、02、03目錄)

user-agent: *

disallow: /01/

disallow: /02/

disallow: /03/

禁止某個搜尋引擎的訪問(下例中的badbot)

user-agent: badbot

disallow: /

只允許某個搜尋引擎的訪問(下例中的crawler)

user-agent: crawler

disallow:

user-agent: *

disallow: /

另外,我覺得有必要進行拓展說明,對robots meta進行一些介紹:

robots meta標籤的寫法:

robots meta標籤中沒有大小寫之分,name=」robots」表示所有的搜尋引擎,可以針對某個具體搜尋引擎寫為name=」baiduspider」。 content部分有四個指令選項:index、noindex、follow、nofollow,指令間以「,」分隔。

index 指令告訴搜尋機械人抓取該頁面;

robots meta標籤的預設值是index和follow,只有inktomi除外,對於它,預設值是index,nofollow。

這樣,一共有四種組合:

<meta name=」robots」 content=」index,follow」>

<meta name=」robots」 content=」noindex,follow」>

<meta name=」robots」 content=」index,nofollow」>

<meta name=」robots」 content=」noindex,nofollow」>

其中 <meta name=」robots」 content=」index,follow」>可以寫成<meta name=」robots」 content=」all」>;

<meta name=」robots」 content=」noindex,nofollow」>可以寫成<meta name=」robots」 content=」none」>

目前看來,絕大多數的搜尋引擎機械人都遵守robots.txt的規則,而對於robots meta標籤,目前支援的並不多,但是正在逐漸增加,如著名搜尋引擎google就完全支援,而且google還增加了乙個指令「archive」,可以限制google是否保留網頁快照。例如:

<meta name=」googlebot」 content=」index,follow,noarchive」>

詳細講解robots txt寫法

什麼是robots.txt檔案呢?搜尋引擎使用spider程式自動訪問網際網路上的網頁並獲取網頁資訊。spider在訪問乙個 時,會首先會檢查該 的根域下是否有乙個叫做robots.txt的純文字檔案。您可以在您的 中建立乙個純文字檔案robots.txt,在檔案中宣告該 中不想被robot訪問的部...

常見robots txt錯誤

顛倒了順序 錯誤寫成 user agent disallow googlebot 正確的應該是 user agent googlebot disallow 把多個禁止命令放在一行中 例如,錯誤地寫成 disallow css cgi bin images 正確的應該是 disallow css di...

如何建立robots txt檔案

首先開門見山第乙個問題 什麼是robots.txt?這是乙個文字檔案,是搜尋引擎爬行網頁要檢視的第乙個檔案,你可以告訴搜尋引擎哪些檔案可以被檢視,哪些禁止。當搜尋機械人 也叫搜尋蜘蛛 訪問乙個站點時,它首先會檢查根目錄是否存在robots.txt,如果存在,搜尋機械人就會按照該檔案中的內容來確定訪問...