Scrapy 學習筆記(一)

2021-10-23 07:00:05 字數 910 閱讀 7031

## 安裝scrapy 框架

1.安裝'scrapy':通過`pip install scrapy`即可安裝。

2.如果在windows安裝,則還需要安裝`pypiwin32`,安裝方式為`pip install pypiwin32`。

3.如果在ubuntu安裝,則需要安裝一些第三方庫:`sudo apt-get install python-dev python-pip libxml12-dev libxslt1-dev zliblg-dev libffi-dev libssl-dev`。

##scrapy框架結構

##建立專案和爬蟲

1.建立專案:`scrapy startproject [專案名稱]`。

scrapy startproject test
2.建立爬蟲:進入到專案所在路徑,執行命令:`scrapy genspider [爬蟲名稱] [網頁路徑]`。

cd test

scrapy genspider test_spider "www.bilibili.com"

注意,專案名稱和爬蟲名稱不能相同。

##專案目錄結構

1.items.py :用來存放爬蟲爬取下來資料的模型。

2.middlewares.py :用來存放各種中介軟體的檔案。

3.pipelines.py : 用來將items的模型儲存到本地磁碟中。

4.settings.py :本爬蟲的一些配置資訊,(例如請求頭、多久發一次請求、ip**池等)

5.scrapy.cfg:專案的配置檔案。

6.spiders包:所有爬蟲存放的位置。

Scrapy學習筆記(一)

tar zxvf python 3.7.0.tgz c softwareyum y install zlib zlib devel yum y install bzip2 bzip2 devel yum y install ncurses ncurses devel yum y install re...

Scrapy學習筆記

於網路 上圖就是整個scrapy的架構圖了,主要包括部分作用如下 scrapy執行流程 scrapy engine從spiders獲取初始的url,並將這些request交給scheduler進行排列。scrapy engine從scheduler獲取處理好的request。scrapy engin...

Scrapy學習筆記(三)

抓取 資訊 class youdailispider crawlspider name youdaili allowed domains youdaili.net start urls rules rule linkextractor allow r d d html callback parse ...