禁止搜尋引擎收錄的方法

2021-04-01 19:03:01 字數 2424 閱讀 5030

禁止搜尋引擎收錄的方法

什麼是robots.txt檔案?

搜尋引擎通過一種程式robot(又稱spider),自動訪問網際網路上的網頁並獲取網頁資訊。

您可以在您的**中建立乙個純文字檔案robots.txt,在這個檔案中宣告該**中不想被robot訪問的部分,這樣,該**的部分或全部內容就可以不被搜尋引擎收錄了,或者指定搜尋引擎只收錄指定的內容。

返回頁首

robots.txt檔案放在**?

robots.txt檔案應該放在**根目錄下。舉例來說,當robots訪問乙個**(比如http://.abc.com)時,首先會檢查該**中是否存在http://.abc.com/robots.txt這個檔案,如果機械人找到這個檔案,它就會根據這個檔案的內容,來確定它訪問許可權的範圍。

** url相應的 robots.txt的 url

返回頁首

robots.txt檔案的格式

"robots.txt"檔案包含一條或更多的記錄,這些記錄通過空行分開(以cr,cr/nl, or nl作為結束符),每一條記錄的格式如下所示:

":"。

在該檔案中可以使用#進行註解,具體使用方法和unix中的慣例一樣。該檔案中的記錄通常以一行或多行user-agent開始,後面加上若干disallow行,詳細情況如下:

user-agent:

該項的值用於描述搜尋引擎robot的名字,在"robots.txt"檔案中,如果有多條user-agent記錄說明有多個robot會受到該協議的限制,對該檔案來說,至少要有一條user-agent記錄。如果該項的值設為*,則該協議對任何機械人均有效,在"robots.txt"檔案中,"user-agent:*"這樣的記錄只能有一條。

disallow:

該項的值用於描述不希望被訪問到的乙個url,這個url可以是一條完整的路徑,也可以是部分的,任何以disallow開頭的url均不會被robot訪問到。例如"disallow:/help"對/help.html 和/help/index.html都不允許搜尋引擎訪問,而"disallow:/help/"則允許robot訪問/help.html,而不能訪問/help/index.html。任何一條disallow記錄為空,說明該**的所有部分都允許被訪問,在"/robots.txt"檔案中,至少要有一條disallow記錄。如果"/robots.txt"是乙個空檔案,則對於所有的搜尋引擎robot,該**都是開放的。

robots.txt檔案用法舉例例1.禁止所有搜尋引擎訪問**的任何部分user-agent: *

disallow: /

例2.允許所有的robot訪問(或者也可以建乙個空檔案 "/robots.txt" file)

user-agent: *

disallow:

例3. 禁止某個搜尋引擎的訪問user-agent: badbot

disallow: /

例4. 允許某個搜尋引擎的訪問user-agent: baiduspider

disallow:

user-agent: *

disallow: /

例5.乙個簡單例子

在這個例子中,該**有三個目錄對搜尋引擎的訪問做了限制,即搜尋引擎不會訪問這三個目錄。

需要注意的是對每乙個目錄必須分開宣告,而不要寫成 "disallow: /cgi-bin/ /tmp/"。

user-agent:後的*具有特殊的含義,代表"any robot",所以在該檔案中不能有"disallow: /tmp/*" or "disallow:*.gif"這樣的記錄出現.

user-agent: *

disallow: /cgi-bin/

disallow: /tmp/

disallow: /~joe/

返回頁首

robots.txt檔案參考資料

· html author's guide to the robots exclusion protocol

· the original 1994 protocol description, as currently deployed

· the revised internet-draft specification, which is not yet completed or implemented

返回頁首

禁止搜尋引擎收錄的方法

1.什麼是robots.txt檔案?搜尋引擎使用spider程式自動訪問網際網路上的網頁並獲取網頁資訊。spider在訪問乙個 時,會首先會檢查該 的根域下是否有乙個叫做 robots.txt的純文字檔案,這個檔案用於指定spider在您 上的抓取範圍。您可以在您的 中建立乙個robots.txt,...

禁止搜尋引擎收錄的方法

什麼是robots.txt檔案?搜尋引擎通過一種程式robot 又稱spider 自動訪問網際網路上的網頁並獲取網頁資訊。您可以在您的 中建立乙個純文字檔案robots.txt,在這個檔案中宣告該 中不想被robot訪問的部分,這樣,該 的部分或全部內容就可以不被搜尋引擎收錄了,或者指定搜尋引擎只收...

禁止搜尋引擎收錄的方法

什麼是robots.txt檔案?搜尋引擎通過一種程式robot 又稱spider 自動訪問網際網路上的網頁並獲取網頁資訊。您可以在您的 中建立乙個純文字檔案robots.txt,在這個檔案中宣告該 中不想被robot訪問的部分,這樣,該 的部分或全部內容就可以不被搜尋引擎收錄了,或者指定搜尋引擎只收...