Python Scrapy 爬蟲踩過的坑(一)

2021-09-14 04:12:48 字數 799 閱讀 7432

一、debug crawled 200 ,具體報錯資訊如下圖所示:

1. 200為http 狀態碼,代表訪問ok。

2. 但是設定的正則的返回的爬取資訊為

也有可能是正規表示式的設定出錯+js介面的原因

二、overridden setting 

主要報錯資訊如下圖所示:

建立爬蟲檔案的時候,scrapy genspider -t crawl file_name domain_name   採用了crawl模板,setting.py 已配置了相關的訪問資訊。user_agent欄位的設定與file_name(爬蟲檔案).py的headers = 設定重複,注釋掉headers內容則解決。

三、redirecting (301)

爬蟲訪問網頁,重定向bug。

解決:主要是**有反爬機制,加上現在網頁前端不用表單形式,formrequest()中form_data屬性沒辦法傳入登入時的資訊。防止反爬的話,需要根據f12 network中找到登入後的cookie,轉換為字典形式。request(url,cookies = self.cookie) 模擬瀏覽器傳送請求時,需要將cookie帶上。

因為前端網頁標籤的改為div+css,採用formrequest會報no form data in .....的錯, 即不能採用formrequest,因為網頁中無

四、typeerror 

raise typeerror('request url must be str or unicode, got %s:' % type(url).__name__)
解決見

Python Scrapy爬蟲簡單使用

scrapy startproject spidername scrapy shell 名 除錯命令可直接進行css和xpath的除錯 成功執行命令之後可使用 response.xpath xpath表示式 獲取所需的內容。說明 xpath 是一門在 xml 文件中查詢資訊的語言 表示式描述 例項n...

Python Scrapy爬蟲框架安裝

pip install d twisted 20.3 0 cp38 cp38 win32.whl 3 到這裡在使用pip install scrapy一般都可以成功了 pip install scrapy4 如果第3步任然失敗,可以將scrap依賴的庫lxml pyopenssl pywin32先分...

python Scrapy框架爬蟲入門學習

改寫parse 方法,對response變數包含的內容解析。scrapy 提供的 feed exports 可以輕鬆將抓取結果輸出。支援輸出格式 json csv xml pickle marshal 等,還支援 ftp s3 等遠端輸出。scrapy crawl spi o spi.json sc...