nginx限制蜘蛛的頻繁抓取

2022-04-09 07:13:20 字數 671 閱讀 8062

nginx的配置:

#全域性配置

limit_req_zone $anti_spider zone=anti_spider:60m rate=200r/m;

#某個server中

#其它爬蟲限制參考

詳細的引數說明,可以檢視官方文件。

這個模組對請求的限制採用了漏桶演算法。

漏桶演算法詳見 

相關**請檢視nginx原始碼檔案 src/http/modules/ngx_http_limit_req_module.c

**的核心部分是ngx_http_limit_req_lookup 方法。

如何控制Yahoo Slurp蜘蛛的抓取頻度

的抓取頻度非常高,導致伺服器的速度有些慢,如何才能讓slurp降低抓取頻度呢?我首先想到的建議是在 的robots.txt中增加crawl delay 設定 這個設定是目前slurp獨有的,用來告訴slurp蜘蛛2次訪問之間的間隔,單位是秒。user agent crawl delay 10 我推薦...

搜尋引擎蜘蛛的抓取策略

這篇文章主要講解搜尋引擎的蜘蛛爬蟲的工作原理,包括它的四種抓取策略。首先呢,搜尋引擎的蜘蛛抓取網頁是有著一定的規律,不會去隨便抓取網頁,並且呢,蜘蛛是通過超連線來抓取網頁的,我們剛剛說了,搜尋引擎有四種抓取網頁的策略,下邊我們一一講解。深度優先 所謂深度優先,就是蜘蛛在乙個頁面中發現第乙個超連結,然...

Nginx的請求限制

連線頻率的限制 limit conn module 請求頻率的研製 limit req module tcp三次握手,一次連線可以建立多次http請求 連線限制的語法 語法1 語法2 請求限制的語法 語法1 語法2 limit conn zone 連線限制 binary remote addr zo...