Scrapy框架學習之簡介(一)

2021-10-06 22:19:32 字數 316 閱讀 1377

1.新建專案 (scrapy startproject ***):新建乙個新的爬蟲專案

2.明確目標 (編寫items.py):明確你想要抓取的目標

3.製作爬蟲 (spiders/xxspider.py):製作爬蟲開始爬取網頁

4.儲存內容 (pipelines.py):設計管道儲存爬取內容

name = "" :這個爬蟲的識別名稱,必須是唯一的,在不同的爬蟲必須定義不同的名字。

allow_domains = 是搜尋的網域名稱範圍,也就是爬蟲的約束區域,規定爬蟲只爬取這個網域名稱下的網頁,不存在的url會被忽略。

Scrapy學習 二 框架簡介

1.引擎向蜘蛛索取 2.引擎將要爬取的url交給排程器 3.排程器將url生成請求物件放入到指定的佇列 4.從佇列中出列乙個請求 8.引擎將資料交給蜘蛛 9.spider通過xpath解析,將解析結果交給引擎判斷 10.如果得到的url則繼續交給排程器,如果得到資料則交給管道處理 元件說明 scra...

Scrapy框架學習

scrapy框架的工作流程 1.首先spiders 爬蟲 將需要傳送請求的url requests 經scrapyengine 引擎 交給scheduler 排程器 2.scheduler 排序,入隊 處理後,經scrapyengine,middlewares 可選,主要有user agent,pr...

scrapy爬蟲框架(一) scrapy框架簡介

開啟命令列輸入如下命令 pip install scrapy安裝完成後,python會自動將 scrapy命令新增到環境變數中去,這時我們就可以使用 scrapy命令來建立我們的第乙個 scrapy專案了。開啟命令列,輸入如下命令 scrapy startproject yourproject這裡的...