Python Scrapy 爬蟲踩過的坑（一）

一、debug crawled 200 ，具體報錯資訊如下圖所示：

1. 200為http 狀態碼，代表訪問ok。

2. 但是設定的正則的返回的爬取資訊為

也有可能是正規表示式的設定出錯+js介面的原因

二、overridden setting

主要報錯資訊如下圖所示：

建立爬蟲檔案的時候，scrapy genspider -t crawl file_name domain_name 採用了crawl模板，setting.py 已配置了相關的訪問資訊。user_agent欄位的設定與file_name(爬蟲檔案).py的headers = 設定重複，注釋掉headers內容則解決。

三、redirecting (301)

爬蟲訪問網頁，重定向bug。

解決：主要是**有反爬機制，加上現在網頁前端不用表單形式，formrequest()中form_data屬性沒辦法傳入登入時的資訊。防止反爬的話，需要根據f12 network中找到登入後的cookie，轉換為字典形式。request(url,cookies = self.cookie) 模擬瀏覽器傳送請求時，需要將cookie帶上。

因為前端網頁標籤的改為div+css，採用formrequest會報no form data in .....的錯，即不能採用formrequest，因為網頁中無

四、typeerror

raise typeerror('request url must be str or unicode, got %s:' % type(url).__name__)

解決見

Python Scrapy 爬蟲踩過的坑（一）

Python Scrapy爬蟲簡單使用

Python Scrapy爬蟲框架安裝

python Scrapy框架爬蟲入門學習

Python Scrapy 爬蟲踩過的坑（一）

Python Scrapy爬蟲簡單使用

Python Scrapy爬蟲框架安裝

python Scrapy框架爬蟲入門學習

相關推薦