scrapy selenium爬去京東動態網頁

2021-09-12 03:20:13 字數 735 閱讀 6752

使用scrapy爬取京東圖書出現問題:京東中部分資料採用js載入生成。

造成後果:scrapy爬下來的網頁缺乏一些資訊(需要載入js才能生成)如圖1

圖1京東商品的**不在網頁源**中。

解決方法:

由於感覺麻煩,沒有使用

2. 使用selenium進行渲染,步驟如下:

a. 在自定義的spider的初始化時,使用selenium載入瀏覽器驅動,存到spider變數當中

b. 自定義乙個downloadmiddleware中介軟體,使用spider中瀏覽器驅動載入頁面。

注:此時scrapy中可能有多個爬蟲,中介軟體只需要對自己需要的爬蟲進行處理就可以了(使用if語句判斷)

c. 將中介軟體新增到settings.py中(需要在settings中配置,中介軟體才能跑起來)

d. 執行scrapy,檢視結果

scrapy selenium動態抓取

1 middleware.py檔案配置 瀏覽器不提供視覺化頁面.linux下如果系統不支援視覺化不加這條會啟動失敗 chrome options.add argument headless 谷歌文件提到需要加上這個屬性來規避bu chrome options.add argument disable...

scrapy selenium速度慢修改

concurrent requests 32 download delay 0.5 concurrent requests per domain 1000000 1.啟動chrome畢竟是圖形化的介面,肯定是會消耗大量記憶體和cpu 2.phantomjs正是一款沒有介面的瀏覽器但是還是同樣能完成瀏...

爬爬爬,爬蟲之獲取資料 requests

推薦使用requests庫,相比urllib使用要簡介的多 requests向目標站點傳送請求,獲得乙個httpresponse響應 import requests requests.get requests.post requests.put requests.delete requests.he...