如何建立robots txt檔案

2021-04-30 19:24:14 字數 4679 閱讀 7907

首先開門見山第乙個問題:什麼是robots.txt?

這是乙個文字檔案,是搜尋引擎爬行網頁要檢視的第乙個檔案,你可以告訴搜尋引擎哪些檔案可以被檢視,哪些禁止。

當搜尋機械人(也叫搜尋蜘蛛)訪問乙個站點時,它首先會檢查根目錄是否存在robots.txt,如果存在,搜尋機械人就會按照該檔案中的內容來確定訪問的範圍;如果該檔案不存在,所有的搜尋蜘蛛將能夠訪問**上所有沒有被口令保護的頁面。

可以看出,robots.txt是放在**根目錄的,另外而且檔名全部使用小寫。

robots.txt基本語法

我們先看乙個簡單的例子:http://www.seo0592.com/robots.txt

這個是廈門seo技術站點的乙個例子,我們在說這四行是什麼意思之前來先看看robots.txt的幾個關鍵語法:

如disallow:/

disallow:/images/

disallow:/admin/

disallow:/css/

等等……

由此可看:上面例子所表示的意思是禁止所有搜尋引擎訪問**的任何部分。

下面,我們列舉一些robots.txt 具體用法:

1、允許所有的robot訪問

user-agent: *

disallow:

或者user-agent: *

allow: / 

或者建乙個空檔案"robots.txt"即可。

2、僅禁止某個機械人訪問您的**,如baiduspider。

3、僅允許某個機械人訪問您的**,如baiduspider。

4、禁止訪問特定目錄

user-agent: *

disallow: /admin/

disallow: /css/

disallow: /*script/

5、允許訪問特定目錄中的部分url

user-agent: *

allow: /admin/user/

allow: /data/d.html

disallow: /admin/

disallow: /data/

6、使用"*"限制訪問url

user-agent: *

disallow: /upload/*.jspx

禁止訪問/upload/目錄下的所有以".jspx"為字尾的url(包含子目錄)。

7、使用"$"限制訪問url

user-agent: *

allow: .htm$

disallow: /

僅允許訪問以".htm"為字尾的url。

8、禁止訪問**中所有的動態頁面

user-agent: *

disallow: /*?*

9、禁止baiduspider抓取**上所有

10、僅允許baiduspider抓取網頁和.gif格式

允許抓取網頁和gif格式,不允許抓取其他格式

robots.txt檔案裡還可以直接包括在sitemap檔案的鏈結。

就像這樣:sitemap:http://www.yourhost.com/sitemap.xml

但加上這句話時,請特別讀下面這段話:

目前對此表示支援的搜尋引擎公司有google, yahoo, ask and msn。而中文搜尋引擎公司,顯然不在這個圈子內。這樣做的好處就是,站長不用到每個搜尋引擎的站長工具或者相似的站長部分,去提交自己的sitemap檔案,搜尋引擎的蜘蛛自己就會抓取robots.txt檔案,讀取其中的sitemap路徑,接著抓取其中相鏈結的網頁。

注意:robots.txt的所有指令都區分大小寫。例如:disallow: /junk_file.asp 會攔截http://www.example.com/junk_file.asp,卻會允許http://www.example.com/junk_file.asp。一般與程式有關的都是區分大小寫的,並且要以英文狀態下編寫。

另:googlebot 會忽略 robots.txt 中的空白內容(特別是空行)和未知指令。

robots meta標籤的寫法:

robots meta標籤中沒有大小寫之分,name="robots"表示所有的搜尋引擎,可以針對某個具體搜尋引擎寫為name="baiduspider"。 content部分有四個指令選項:index、noindex、follow、nofollow,指令間以","分隔。

index 指令告訴搜尋機械人抓取該頁面;

robots meta標籤的預設值是index和follow,只有inktomi除外,對於它,預設值是index,nofollow。

這樣,一共有四種組合:

其中

可以寫成》meta name="robots" content="all">;

可以寫成

目前看來,絕大多數的搜尋引擎機械人都遵守robots.txt的規則,而對於robots meta標籤,目前支援的並不多,但是正在逐漸增加,如著名搜尋引擎google就完全支援,而且google還增加了乙個指令「archive」,可以限制google是否保留網頁快照。例如:

表示抓取該站點中頁面並沿著頁面中鏈結抓取,但是不在goolge上保留該頁面的網頁快照。

最後再簡單說說我們為何需要用robots.txt這個檔案來告訴搜尋機械人不要爬行我們的部分網頁,比如:後台管理檔案、程式指令碼、附件、資料庫檔案、編碼檔案、樣式表檔案、模板檔案、導航和背景等等。說到底了,這些頁面或檔案被搜尋引擎收錄了,使用者也看不了,多數需要口令才能進入或是資料檔案。既然這樣,又讓搜尋機械人爬行的話,就浪費了伺服器資源,增加了伺服器的壓力,因此我們可以用robots.txt告訴機械人集中注意力去收錄我們的文章頁面。增強使用者體驗。

再提醒廣大建站朋友的是,在建站初期,並上伺服器測試時,最好寫乙個robots.txt以禁止搜尋引擎收錄,以免造成不白之冤。建好後再放開懷抱,與搜尋引擎攀上友好關係,共同服務於廣大客戶。

篇幅短短,並不長。但包含網友所關心的:robots.txt、robots.txt檔案、robots.txt問題、robots.txt 如何寫、robots.txt技巧、robots.txt 怎麼寫、robots.txt 寫法、robots.txt 具體用法等系列問題。相信,您要是從頭一字不漏地看到這,並深刻理解再一結合上面的例子通過舉一反三便可以寫出適合自己**的乙個robots.txt。這樣廣大網友們就不必開啟搜尋引擎帶著robots.txt相關問題到處亂竄了。

clazy,廈門seo.clazy【http://www.seo0592.com】的創始人,度谷seo論壇(http://www.web520.com/bbs

SEO兩百個秘密 robots txt檔案的秘密

能不能被搜尋引擎索引到,除了看有沒有向搜尋引擎入口提交 有否與其他站點交換鏈結等之外,還得看根目錄底下的robots.txt檔案有沒有禁止搜尋引擎的收錄。熟練書寫robots.txt語法,是每個seoer所必須掌握的基本技能。seo研究院曾經寫過一篇 seo七十二案例 z blog優化完全攻略 的具...

C 如何建立Xml檔案

xmltextwriter物件簡介 xmltextwriter物件包含了很多可用於在建立xml檔案時新增元素和屬性到xml檔案裡的方法,比較重要的有 writestartdocument 建立xml檔案首先就需要用到這個方法,它是在建立xml檔案的第一行 用來指定該檔案是xml檔案以及設定它的編碼型...

Android中如何建立xml檔案

sax中想必大家對xml檔案讀取的方法已經比較熟悉了,在這裡我們就不多說了,直接說明如何將資訊寫成xml檔案,首先介紹andoid sdk中的相關類。類說明 xmlserializer define an inte ce to serialziation of xml infoset.定義乙個介面來...