如何禁止搜尋引擎收錄?

2021-05-22 09:12:27 字數 1843 閱讀 7891

很多站長都認為有搜尋引擎收錄是一件好事,首先是自己的**得到了承認,通過搜尋引擎也能帶來一定的流量。其實並不完全準確,某些比較不知 名的搜尋引擎,即便收錄了許多網頁,並且天天更新,卻不能帶來實在的利益,反而浪費了伺服器頻寬(國內的主機一般宣稱不限流量,但國外的 dreamhost這樣的主機都是限制流量的),這樣的搜尋引擎,收不收錄也是無所謂的。本文說說如何禁止某些搜尋引擎的抓取及收錄。

禁止搜尋引擎收錄的方法大概有3種。

方法一:伺服器禁止訪問。

這需要伺服器配備有cpanel這樣的後台管理軟體,設定某個搜尋引擎所在的ip段禁止訪問。如要封鎖google的蜘蛛,先通過網域名稱對應ip查詢 得www.google.com的ip位址,如74.125.19.99,再通過ip whois查詢查到ip段 74.125.0.0 – 74.125.255.255 的所有人均是google公司,把這個ip段填入ip黑名單中。(具體的方法根據不同的管理軟體有所不同,可能是 74.125.0.0-74.125.255.255或74.125.*.*)

這個方法比較好的地方在於直接禁止搜尋引擎的訪問,除了http請求頭,幾乎不耗費流量,一般情況下這點流量也不會計算在你的消耗的流量當中。這是 禁止搜尋引擎收錄的最好方法。但麻煩在於你不可能得到google的所有ip段,這個就得靠收集了。

方法二:robots.txt禁止

robots.txt的簡單用法:

在特殊情況下,我們可能希望部分不被所有的搜尋引擎收錄,比如wordpress的wp-admin/目錄是後台管理的目錄,wp-content /是存放主題、外掛程式的目錄,這個不需要被搜尋引擎收錄,可以編輯robots.txt為

使用robots.txt需要注意的是,並非所有的搜尋引擎都遵守該協議,而且就算遵守該協議不代表蜘蛛不對**進行抓取,可能是抓取後不發布出來 而已,流量是要樣要耗費的。

方法三:指令碼判斷,禁 止

這裡寫一下php的方法,其他asp等方法也是類似的。

檢測來訪的訪客的user-agent(ua),如果是搜尋引擎的蜘蛛則立即禁止訪問,提示出錯資訊。if(

該**當來訪的訪客的ua中包含google或baidu字樣即返回403禁止資訊並退出指令碼。

//禁止ua中含有bot /crawl/spider字樣的使用者if(

用指令碼的方法禁止搜尋引擎的訪問比較方便快捷,特別是wordpress這樣的程式,只要加乙個外掛程式即可(過些天做乙個發布出來)。用這個方法對服 務器流量的消耗也不大,可以接受。

如何禁止搜尋引擎收錄抓取

第一種 robots.txt方法 搜尋引擎預設的遵守robots.txt協議,建立robots.txt文字檔案放至 根目錄下,編輯 如下 user agent disallow 通過 即可告訴搜尋引擎不要抓取採取收錄本 第二種 網頁 在 首頁 之間,加入 此標記禁止搜尋引擎抓取 並顯示網頁快照。1 ...

如何禁止搜尋引擎收錄抓取

如果你的 涉及個人隱私或者機密性非公開的網頁,怎樣告訴禁止搜尋引擎收錄抓取,下面侯慶龍說下以下方法,希望對不想被搜尋引擎收xcensd錄抓取 有所幫助。第一種 robots.txt方法 搜尋引擎預設的遵守robots.txt協議,建立robots.txt文字檔案放至 根目錄下,編輯 如下 user ...

禁止搜尋引擎收錄的方法

禁止搜尋引擎收錄的方法 什麼是robots.txt檔案?搜尋引擎通過一種程式robot 又稱spider 自動訪問網際網路上的網頁並獲取網頁資訊。您可以在您的 中建立乙個純文字檔案robots.txt,在這個檔案中宣告該 中不想被robot訪問的部分,這樣,該 的部分或全部內容就可以不被搜尋引擎收錄...