scrapy爬蟲建立 開啟

2021-10-06 18:39:44 字數 1780 閱讀 8983

scrapy 是一套基於基於twisted的非同步處理框架,純python實現的爬蟲框架,使用者只需要定製開發幾個模組就可以輕鬆的實現乙個爬蟲,用來抓取網頁內容以及各種,非常之方便~

安裝scrapy

pip install scrapy

驗證安裝是否成功

import scrapy

scrapy.version_info # (1, 6, 0)

匯入scrapy,然後輸出版本號,我的是1.6.0版本

建立scrapy專案

scrapy startproject example # 建立專案

cd example # 進入專案

scrapy genspider example example.com # 建立爬蟲檔案

在命令列輸入:

scrapy startproject example

這個命令在當前資料夾下建立乙個名為example的專案

目錄結構:

example

├── example

│ ├── __init__.py

│ ├── items.py

│ ├── middlewares.py

│ ├── pipelines.py

│ ├── __pycache__

│ ├── settings.py

│ └── spiders

│ ├── __init__.py

│ └──__pycache__

└── scrapy.cfg

建立爬蟲檔案
you can start your first spider with:

cd example進入example資料夾

scrapy genspider example example.com建立名為example,網域名稱為example.com的爬蟲檔案

比如我們要爬取京東, 可以進入建立好的專案,在專案下建立名我jd, 網域名稱為jd.com的爬蟲檔案即:

這時候在spiders資料夾下會出現乙個jd.py檔案

檔案內容如下

# -*- coding: utf-8 -*-

import scrapy

class

jdspider

(scrapy.spider)

: name =

'jd'

# 爬蟲名

allowed_domains =

['jd.com'

]# 允許在jd.com網域名稱下爬取

start_urls =

['']# 爬蟲開始的位置

defparse

(self, response)

:pass

當然也可以自己建立乙個爬蟲檔案。

啟動爬蟲

在專案資料夾下,即上面cd example後進入的資料夾。在命令列中輸入scrapy crawl,啟動剛建立好的爬蟲:

scrapy crawl jd

這樣我們就建立乙個scrapy爬蟲並啟動了

使用scrapy開啟爬蟲

scrapy startproject test 建立專案 建立的檔案介紹 scrapy.cfg 專案配置檔案,專案配置檔案路徑部署資訊 items.py 定義item資料結構的地方 settings.py 是專案的設定檔案,可以定義專案的全域性設定 spiders資料夾 編寫xpath和正規表示式...

Scrapy建立爬蟲專案步驟

1.開啟cmd命令列工具,輸入 scrapy startproject 專案名稱 2.使用pycharm開啟專案,檢視專案目錄 3.建立爬蟲,開啟cmd,cd命令進入到爬蟲專案資料夾,輸入 scrapy genspider 爬蟲檔名 爬蟲基礎網域名稱 4.開啟pycharm,發現 spider 目錄...

爬蟲 建立scrapy框架的專案

進入命令管理器 通過命令scrapy startproject spider3 進入spider3專案中 執行scrapy genspider university qianmu.org scrapy genspider 爬蟲的名字name 爬蟲的網域名稱 通過pycharm軟體匯入此專案 scra...