scrapy 爬蟲學習筆記

2021-08-21 11:15:10 字數 452 閱讀 4912

1.安裝scrapy

pip install -i 源 scrapy

2.手動建立scarpy專案

scrapy startproject 專案名稱

3.scrapy genspider jobbole blog.jobbole.com(使用自帶模板)

4.除錯

修改setting檔案中obey robots為flase

新建py檔案

在命令視窗中輸入

5.提取內容(有多種方法)

頁面分析內容時,注意頁面載入後f12下獲取元素的xpath和直接獲取原始碼的xpath可能不一樣,因為頁面動態載入js後可能會生成新的頁面布局。

6.shell除錯

scrapy shell **

SCRAPY 爬蟲筆記

scrapy 爬蟲筆記 第乙個scrapy 程式 首選在cmd 輸入 scrapy startproject 就是我們第乙個專案的名稱 在spiders資料夾下面建立乙個新的python檔案 import scrapy class firstspider scrapy.spider name fir...

爬蟲scrapy學習

1 建立乙個scrapy專案 2 定義提取的item容器 3 編寫spider爬蟲,並提取item 4 編寫item pipeline 儲存提取到的item 二 具體思維導 釋 參考自 各部分元件 scrapy執行流程如下 我覺得這個解釋的比較清晰。1.引擎從排程器取出乙個url鏈結,用於抓取。4....

scrapy爬蟲學習

因畢設需要做資料集,學習爬蟲。相關 1.目前遇到問題,中文description無法返回。0 print response.body 解釋 xpath是從網頁返回內容裡邊去提取的,網頁返回的content和瀏覽器的element可能會有差異1 查詢是不是pipelines.py出問題。defproc...