伺服器反爬蟲攻略

2021-07-09 23:42:32 字數 1371 閱讀 5457

#所有爬蟲

user-agent: *

disallow:/

# 遮蔽google爬蟲訪問後台管理

user-agent: googlebot

disallow:/admin

# 遮蔽sosospider訪問後台管理

##add by lin at 2009-11-02 禁止flv的訪問

rewritecond % .flv$[nc]

#允許空「http_referer」的訪問,即允許使用者在瀏覽器位址列中直接輸入位址時檔案的顯示

rewritecond % !^$ [nc]

#設定允許訪問的http**

rewritecond % !***.com [nc]

#定義被盜鏈時替代的,讓所有盜鏈 jpg、gif、png 等檔案的網頁,顯示根目錄下的 no.png 檔案

#將不滿足上述條件的全部重定向到no.png,add by lin at 2009-11-02

rewriterule (.*) [r,nc,l]

上面那段**可以禁止和相關資源的盜鏈,改改應該也是可以禁止爬蟲的訪問的。於是修改.htaccess檔案新增

用 php模擬訪問**,發現確實有效果。但是我們有十幾個**,我不可能每個**挨個去給他們修改.htaccess,有的**已經有.htaccess文 件,如果貿然修改,可能會導致原來**訪問不正常,怎麼辦呢?我們能不能修改apache的配置檔案,做乙個全域性的設定,把不應來的爬蟲拒之門外?修改配 置檔案:

#僅對指定的http方法進行訪問控制

order allow,deny

allow from all

deny from env=not_allowed_spider

用 php模擬訪問**,果然可行,搞定,終於可以禁止爬蟲瞎爬了,明天可以睡個安穩覺了。另外還有很多防止爬蟲的策略和方法,可以參考robbin的一篇文 章,裡面講述了爬蟲的識別和防護等相關技巧( )

伺服器備份攻略

本文主要講解如何用git備份伺服器資料 1.如果沒有git,先安裝 sudo apt get install git all 2.假如要備份檔案夾 backup,先初始化git cd backup git init git add git commit m first commit 3.寫乙個備份指...

伺服器備份攻略

本文主要講解如何用git備份伺服器資料 1.如果沒有git,先安裝 sudo apt get install git all 2.假如要備份檔案夾 backup,先初始化git cd backup git init git add git commit m first commit 3.寫乙個備份指...

MySQL伺服器選型攻略

mysql伺服器選型攻略 隨著mysql資料庫在網際網路公司用得越來越多,對應的伺服器選型變得極為重要.對於好的伺服器選擇 應該是滿足以下幾個條件的 1,穩定,資料庫伺服器是應用的基礎,穩定涉及到整個應用的穩定 2,效能,滿足業務目標需求 3,成本,由於大部分網際網路公司處在成長期,所以對於成本會非...