規範開始乙個scrapy爬蟲專案

2021-08-22 18:15:38 字數 1254 閱讀 2505

【示例環境】

系統 win10

語言及版本 python3.6   安裝好scrapy(裝好python,在命令列中輸入pip install scrapy)

首先,我們要建立乙個scrapy專案,開啟命令提示符(win+r, 輸入cmd回車),cd到你要建立專案的目錄下,使用scrapy startproject命令, 該引數表示你為專案起的名:(如圖所示,我將專案命名為example,你可以根據需要改名)

後面有如圖中提示即表示建立成功(請忽略圖中我的失誤。。-_-學程式設計是一件枯燥的事,留些失誤博君一笑~)。

接下來我們可以到磁碟中檢視專案檔案:

如上圖組,專案已經成功建立!

接下來同樣,在命令提示符中,cd到專案根目錄下,我們可以使用scrapy genspider命令生成我們自己的spider類,該命令的兩個引數分別表示爬蟲名稱以及爬取的網域名稱:

有如圖提示即為建立成功

接下來我們到磁碟中去看看

我們發現spider目錄下多了乙個檔案books.py,即是我們剛才建立的,開啟該檔案看看

scrapy框架真的好用,自動幫我們生成了乙個scrapy.spider的子類booksspider,接下來我們只要在這個子類中實現我們要的功能就可以啦。

第乙個scrapy爬蟲

我們要爬取的是讀書網裡面的書名,作者,和對書的描寫 首先我們要定義爬取資料的模型,在items.py檔案中 import scrapy class moveitem scrapy.item 定義爬取的資料的模型 title scrapy.field auth scrapy.field desc sc...

scrapy 我的第乙個scrapy爬蟲

import scrapy from scrapy.linkextractors import linkextractor linkextractor是用來指定頁面提取規則的extract links 是用來獲取連線的 from items import baiduyueduitem 這是我的用來封...

scrapy爬蟲起步(1) 第乙個爬蟲程式

目標 使用scrapy抓取豆瓣小組的組名 新建工程資料夾,命令列cd到該目錄下,用下面的命令新建乙個scrapy工程 scrapy startproject dmoz 新建好的工程目錄結構為 e python workspace douban scrapy.cfg douban items.py p...