爬蟲日記 18 setting的基本配置

在剛剛開始學習爬蟲的時候，對什麼都感興趣，都想進行一次抓取的行動。一頓操作之後，發現爬蟲連線不上**了，百思不得解時，才發現原來被**ban掉了。被ban就是爬蟲被****了的意思。顯然很多**對爬蟲是不太歡迎的，特別是**的所有者。因為爬蟲常常過快地連線**，導致**不能提供正常的訪問。因此，編寫爬蟲一定要放慢爬行的速度，讓**所有者認為這是一種正常的訪問，即使知道你是爬蟲，只要不影響正常訪問，也會網開一面的。導致爬行速度過快的爬蟲，往往就在初學者中，因為他們根本就沒有學習過爬蟲的配置，也因為很多爬蟲的書籍也不去說怎麼樣配置，更有一些網文提不提配置。所以初學者只有吃到閉門羹後，才番然醒悟要學習配置引數了。

我們建立乙個scrapy的爬蟲，一般目錄長成這樣：

在其中有乙個配置檔案，它就叫做settings.py檔案，裡面是scrapy的爬取配置。如果你仔細地開啟這個檔案，如下：