robots的一些作用及用法

2021-05-24 06:07:11 字數 2129 閱讀 2488

在國內,**管理者似乎對robots.txt並沒有引起多大重視,應一些朋友之請求,今天想通過這篇文章來簡單談一下robots.txt的寫作。

robots.txt基本介紹

當乙個搜尋機械人(有的叫搜尋蜘蛛)訪問乙個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜尋機械人就會按照該檔案中的內容來確定訪問的範圍;如果該檔案不存在,那麼搜尋機械人就沿著鏈結抓取。

另外,robots.txt必須放置在乙個站點的根目錄下,而且檔名必須全部小寫。

robots.txt寫作語法

首先,我們來看乙個robots.txt範例:http://www.seovip.cn/robots.txt

以上文字表達的意思是允許所有的搜尋機械人訪問www.seovip.cn站點下的所有檔案。

具體語法分析:其中#後面文字為說明資訊;user-agent:後面為搜尋機械人的名稱,後面如果是*,則泛指所有的搜尋機械人;disallow:後面為不允許訪問的檔案目錄。

下面,我將列舉一些robots.txt的具體用法:

允許所有的robot訪問

user-agent: *

disallow:

或者也可以建乙個空檔案 「/robots.txt」 file

禁止所有搜尋引擎訪問**的任何部分

user-agent: *

disallow: /

禁止所有搜尋引擎訪問**的幾個部分(下例中的01、02、03目錄)

user-agent: *

disallow: /01/

disallow: /02/

disallow: /03/

禁止某個搜尋引擎的訪問(下例中的badbot)

user-agent: badbot

disallow: /

只允許某個搜尋引擎的訪問(下例中的crawler)

user-agent: crawler

disallow:

user-agent: *

disallow: /

另外,我覺得有必要進行拓展說明,對robots meta進行一些介紹:

robots meta標籤的寫法:

robots meta標籤中沒有大小寫之分,name=」robots」表示所有的搜尋引擎,可以針對某個具體搜尋引擎寫為name=」baiduspider」。 content部分有四個指令選項:index、noindex、follow、nofollow,指令間以「,」分隔。

index 指令告訴搜尋機械人抓取該頁面;

robots meta標籤的預設值是index和follow,只有inktomi除外,對於它,預設值是index,nofollow。

這樣,一共有四種組合:

<meta name=」robots」 content=」index,follow」>

<meta name=」robots」 content=」noindex,follow」>

<meta name=」robots」 content=」index,nofollow」>

<meta name=」robots」 content=」noindex,nofollow」>

其中<meta name=」robots」 content=」index,follow」>可以寫成<meta name=」robots」 content=」all」>;

<meta name=」robots」 content=」noindex,nofollow」>可以寫成<meta name=」robots」 content=」none」>

目前看來,絕大多數的搜尋引擎機械人都遵守robots.txt的規則,而對於robots meta標籤,目前支援的並不多,但是正在逐漸增加,如著名搜尋引擎google就完全支援,而且google還增加了乙個指令「archive」,可以 限制google是否保留網頁快照。例如:

<meta name=」googlebot」 content=」index,follow,noarchive」>

表示抓取該站點中頁面並沿著頁面中鏈結抓取,但是不在goolge上保留該頁面的網頁快照。

的一些用法

action標籤,顧名思義,是用來呼叫action的標籤,在jsp中頁面中,可以具體指定某一命名空間中的某一action。而標籤的主體用於顯示及渲染actionr的處理結果。action標籤有如下幾個屬性 id 可選屬性,作為該action的引用id name 必選屬性,指定呼叫action nam...

Shell指令碼及Python的一些用法

1.載入檔案 functions.sh 此即 點 空格 斜線 檔名 使用此方法可以將其他shell指令碼載入到正在使用的shell指令碼中,從而呼叫其他shell指令碼裡的函式。2.函式的呼叫 語法 函式名稱 函式呼叫方法 函式名稱 3.判斷檔案是否存在 語法 if f filename then ...

CURL 介面測試及一些用法

1 在linux中curl是乙個利用url規則在命令列下工作的檔案傳輸工具,http請求指的是客戶端向服務端的請求訊息,http請求主要分為get或post請求兩種,在linux測試環境中,可以通過curl或wget命令和模擬http請求。2 基本用法 基本用法 curl3 通過get方式訪問介面 ...