常見robots txt錯誤

2021-04-14 01:30:08 字數 988 閱讀 5044

- 顛倒了順序:

錯誤寫成

user-agent: *

disallow: googlebot

正確的應該是:

user-agent: googlebot

disallow: *

- 把多個禁止命令放在一行中:

例如,錯誤地寫成

disallow: /css/ /cgi-bin/ /images/

正確的應該是

disallow: /css/

disallow: /cgi-bin/

disallow: /images/

- 行前有大量空格

例如寫成

disallow: /cgi-bin/

儘管在標準沒有談到這個,但是這種方式很容易出問題。

- 404重定向到另外乙個頁面:

當robot訪問很多沒有設定robots.txt檔案的站點時,會被自動404重定向到另外乙個html頁面。這時robot常常會以處理robots.txt檔案的方式處理這個html頁面檔案。雖然一般這樣沒有什麼問題,但是最好能放乙個空白的robots.txt檔案在站點根目錄下。

- 採用大寫。例如

user-agent: excite

disallow:

雖然標準是沒有大小寫的,但是目錄和檔名應該小寫:

user-agent:googlebot

disallow:

- 語法中只有disallow,沒有allow!

錯誤的寫法是:

- 忘記了斜槓/

錯誤的寫做:

正確的應該是

robots txt詳細介紹

robots.txt基本介紹 當乙個搜尋機械人 有的叫搜尋蜘蛛 訪問乙個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜尋機械人就會按照該檔案中的內容來確定訪問的範圍 如果該檔案不存在,那麼搜尋機械人就沿著鏈結抓取。另外,robots.txt必須放置在乙個站點的根目錄下,...

詳細講解robots txt寫法

什麼是robots.txt檔案呢?搜尋引擎使用spider程式自動訪問網際網路上的網頁並獲取網頁資訊。spider在訪問乙個 時,會首先會檢查該 的根域下是否有乙個叫做robots.txt的純文字檔案。您可以在您的 中建立乙個純文字檔案robots.txt,在檔案中宣告該 中不想被robot訪問的部...

如何建立robots txt檔案

首先開門見山第乙個問題 什麼是robots.txt?這是乙個文字檔案,是搜尋引擎爬行網頁要檢視的第乙個檔案,你可以告訴搜尋引擎哪些檔案可以被檢視,哪些禁止。當搜尋機械人 也叫搜尋蜘蛛 訪問乙個站點時,它首先會檢查根目錄是否存在robots.txt,如果存在,搜尋機械人就會按照該檔案中的內容來確定訪問...