robot協議的基礎

2021-04-22 10:44:22 字數 1270 閱讀 1730

搜尋引擎robots協議

搜尋引擎robots協議,是放置在**根目錄下robots.txt文字檔案,在檔案中可以設定搜尋引擎蜘蛛爬行規則。設定搜尋引擎蜘蛛spider抓取內容規則。下面seoer惜緣舉例robots寫法規則與含義:

首先要建立乙個robots.txt文字檔案,放置**的根目錄下,下面就開始編輯設定robots協議檔案:

一、允許所有搜尋引擎蜘蛛抓取所以目錄檔案,如果檔案無內容,也表示允許所有的蜘蛛訪問,設定**如下:

user-agent: *

disallow:

或者user-agent: *

allow: /

二、禁止某個搜尋引擎蜘蛛抓取目錄檔案,設定**如下:

user-agent: msnbot

disallow: /

三、禁止某個目錄被搜尋引擎蜘蛛抓取,設定**如下:

user-agent: *

disallow: /目錄名字1/

disallow: /目錄名字2/

disallow: /目錄名字3/

把目錄名字改為你想要禁止的目錄即可禁止搜尋引擎蜘蛛抓取,目錄名字未寫表示可以被搜尋引擎抓取。

四、禁止某個目錄被某個搜尋引擎蜘蛛抓取,設定**如下:

user-agent: 搜尋引擎蜘蛛名字

說明(上面有說明蜘蛛的名字)

disallow: /目錄名字/

說明(這裡設定禁止蜘蛛抓取的目錄名稱)

例如,想禁目msn蜘蛛抓取admin資料夾,可以設**如下:

user-agent: msnbot

disallow: /admin/

五、設定某種型別檔案禁止被某個搜尋引擎蜘蛛抓取,設定**如下:

user-agent: *

disallow: /*.htm

說明(其中「.htm」,表示禁止搜尋引擎蜘蛛抓取所有「htm」為字尾的檔案)

六、充許所有搜尋引擎蜘蛛訪問以某個擴充套件名為字尾的網頁位址被抓取,設定**如下:

user-agent: *

allow: .htm$  說明(其中「.htm」,表示充許搜尋引擎蜘蛛抓取所有「htm」為字尾的檔案)

七、只充許某個搜尋引擎蜘蛛抓取目錄檔案,設定**如下:

user-agent: 搜尋引擎蜘蛛名字

說明(上面有說明蜘蛛的名字)

disallow:

seo顧問: seoer惜緣 原載**: http://www.noseo.org.cn/

補充  google現在可以利用工具生成自己的robot..txt檔案

01 robot基礎使用

關鍵字驅動 自帶測試報告 單獨的rf語法 1 使用方法 通過pycharm安裝外掛程式intellibot 2 使用方法 新建乙個 robot檔案,執行方法 在 robot檔案目錄下進入cmd,執行 robot robot 生成的三個檔案分別是資料檔案 日誌檔案 報告檔案 如果把 robot放在資料...

我的老夥計ROBOT

非常鬱悶的一件事情,我在給現在測的系統加資料時用lr錄的指令碼老是報錯,資料老是加不進去,花了我很長的時間了,今天眼看就要加完了,結果又乙個指令碼卡住了,眼瞪著它沒辦法,氣死我了!錯了?都沒錯啊!沒轍,確實沒轍,難道真的要象我同事說的那樣不加了嗎?一萬多條資料只差400多點了,難道我花了這麼長的時間...

路由協議基礎 RIP協議

as autonomous system,自治系統。在網際網路中,乙個自治系統 as 是乙個有權自主地決定在本系統中應採用何種路由協議的小型單位。這個網路單位可以是乙個簡單的網路也可以是乙個由乙個或多個普通的網路管理員來控制的網路群體,它是乙個單獨的可管理的網路單元 例如一所大學,乙個企業或者乙個公...