禁止搜尋引擎收錄的方法

2021-06-07 12:24:00 字數 3506 閱讀 6887

1. 什麼是robots.txt檔案?

搜尋引擎使用spider程式自動訪問網際網路上的網頁並獲取網頁資訊。spider在訪問乙個**時,會首先會檢查該**的根域下是否有乙個叫做 robots.txt的純文字檔案,這個檔案用於指定spider在您**上的抓取範圍。您可以在您的**中建立乙個robots.txt,在檔案中宣告 該**中不想被搜尋引擎收錄的部分或者指定搜尋引擎只收錄特定的部分。

請注意,僅當您的**包含不希望被搜尋引擎收錄的內容時,才需要使用robots.txt檔案。如果您希望搜尋引擎收錄**上所有內容,請勿建立robots.txt檔案。

2. robots.txt檔案放在**?

robots.txt檔案應該放置在**根目錄下。舉例來說,當spider訪問乙個**(比如 時,首先會檢查該**中是否存在這個檔案,如果 spider找到這個檔案,它就會根據這個檔案的內容,來確定它訪問許可權的範圍。

** url相應的 robots.txt的 url

robots.txt

robots.txt

robots.txt

robots.txt

4. 禁止搜尋引擎跟蹤網頁的鏈結,而只對網頁建索引

如果您不想搜尋引擎追蹤此網頁上的鏈結,且不傳遞鏈結的權重,請將此元標記置入網頁的 部分:

5. 禁止搜尋引擎在搜尋結果中顯示網頁快照,而只對網頁建索引

要防止所有搜尋引擎顯示您**的快照,請將此元標記置入網頁的部分:

禁止baiduspider抓取**上所有、禁止或允許baiduspider抓取**上的某種特定格式的檔案可以通過設定robots實現,請參考「robots.txt檔案用法舉例」中的例10、11、12。

7. robots.txt檔案的格式

8. url匹配舉例

allow或disallow的值

url匹配結果

/tmp

/tmp

yes/tmp

/tmp.html

yes/tmp

/tmp/a.html

yes/tmp

/tmp

no/tmp

/tmphoho

no/hello*

/hello.html

yes/he*lo

/hello,lolo

yes/heap*lo

/hello,lolo

nohtml$

/tmpa.html

yes/a.html$

/a.html

yeshtm$

/a.htmlno

9. robots.txt檔案用法舉例

例1. 禁止所有搜尋引擎訪問**的任何部分user-agent: *

disallow: /

例2. 允許所有的robot訪問

(或者也可以建乙個空檔案 "/robots.txt")

user-agent: *

allow: /

例3. 僅禁止baiduspider訪問您的**user-agent: baiduspider

disallow: /

例4. 僅允許baiduspider訪問您的**user-agent: baiduspider

allow: /

user-agent: *

disallow: /

例5. 僅允許baiduspider以及googlebot訪問user-agent: baiduspider

allow: /

user-agent: googlebot

allow: /

user-agent: *

disallow: /

例6. 禁止spider訪問特定目錄

在這個例子中,該**有三個目錄對搜尋引擎的訪問做了限制,即robot不會訪問這三個目錄。需要注意的是對每乙個目錄必須分開宣告,而不能寫成 "disallow: /cgi-bin/ /tmp/"。

user-agent: *

disallow: /cgi-bin/

disallow: /tmp/

disallow: /~joe/

例7. 允許訪問特定目錄中的部分urluser-agent: *

allow: /cgi-bin/see

allow: /tmp/hi

allow: /~joe/look

disallow: /cgi-bin/

disallow: /tmp/

disallow: /~joe/

例8. 使用"*"限制訪問url

禁止訪問/cgi-bin/目錄下的所有以".htm"為字尾的url(包含子目錄)。

user-agent: *

disallow: /cgi-bin/*.htm

例9. 使用"$"限制訪問url

僅允許訪問以".htm"為字尾的url。

user-agent: *

allow: /*.htm$

disallow: /

例10. 禁止訪問**中所有的動態頁面user-agent: *

disallow: /*?*

僅允許抓取網頁,禁止抓取任何。

例12. 僅允許baiduspider抓取網頁和.gif格式

允許抓取網頁和gif格式,不允許抓取其他格式

例13. 僅禁止baiduspider抓取.jpg格式user-agent: baiduspider

10. robots.txt檔案參考資料

html author's guide to the robots exclusion protocol

the original 1994 protocol description, as currently deployed

the revised internet-draft specification, which is not yet completed or implemented

本文**:

禁止搜尋引擎收錄的方法

禁止搜尋引擎收錄的方法 什麼是robots.txt檔案?搜尋引擎通過一種程式robot 又稱spider 自動訪問網際網路上的網頁並獲取網頁資訊。您可以在您的 中建立乙個純文字檔案robots.txt,在這個檔案中宣告該 中不想被robot訪問的部分,這樣,該 的部分或全部內容就可以不被搜尋引擎收錄...

禁止搜尋引擎收錄的方法

什麼是robots.txt檔案?搜尋引擎通過一種程式robot 又稱spider 自動訪問網際網路上的網頁並獲取網頁資訊。您可以在您的 中建立乙個純文字檔案robots.txt,在這個檔案中宣告該 中不想被robot訪問的部分,這樣,該 的部分或全部內容就可以不被搜尋引擎收錄了,或者指定搜尋引擎只收...

禁止搜尋引擎收錄的方法

什麼是robots.txt檔案?搜尋引擎通過一種程式robot 又稱spider 自動訪問網際網路上的網頁並獲取網頁資訊。您可以在您的 中建立乙個純文字檔案robots.txt,在這個檔案中宣告該 中不想被robot訪問的部分,這樣,該 的部分或全部內容就可以不被搜尋引擎收錄了,或者指定搜尋引擎只收...