Scrapy 安裝介紹以及基本操作

2021-10-03 13:44:01 字數 1438 閱讀 4145

** 

目前我是使用第二種方法,利用anaconda安裝scrapy框架。比較簡單不會出現公升級 pip 提示。

1. 在日常寫**的目錄下,建乙個資料夾「scrapy測試」

2.終端中輸入: cd (注意cd後有乙個空格),接著進入該資料夾

3. 在終端輸入指令:scrapy startproject wxz ,在該資料夾中建立專案

4.建立spider檔案,在終端中輸入scrapy genspider taobaospider baidu.com,這個命令是指定要爬蟲的檔名和**的網域名稱,命令格式為:scrapy genspider taobaospider + 目標**的網域名稱。執行效果如圖所示:

在資料夾下看見的效果圖:

它們的作用分別是:

items.py:定義爬蟲程式的資料模型

middlewares.py:定義資料模型中的中介軟體

pipelines.py:管道檔案,負責對爬蟲返回資料的處理

settings.py:爬蟲程式設定,主要是一些優先順序設定,優先順序越高,值越小

scrapy.cfg:內容為scrapy的基礎配置

值得注意的是,在學習階段,我們要明白幾點設定檔案setting中的幾處配置**,它們影響著我們的爬蟲的效率:

robotstxt_obey = true

這行**意思是:是否遵守爬蟲協議,學習階段我們要改為false

spider_middlewares = {

'wxz.middlewares.wxzspidermiddleware': 800,

這裡的數值越低,速度越快。

***進行初步採集:  

如進行setting配置,可能出現的問題

setting文件中,mycustom**********middleware 未定義。(

進入middlewares.py檔案中,發現確實未定義該類,只定義了moviespiderspidermiddleware 。

故,在setting中替換掉 mycustom**********middleware 即可。

Scrapy框架安裝與介紹

怎麼判定安裝成功呢?終端輸入scrapy 回車 顯示如圖即為安裝成功 首先要建立乙個新的scrapy專案,預設是在c盤建立,如果要建立在別的盤裡可以通過cd 加上空格 或d 的形式 其中baidu是專案名稱 scrapy.cfg 專案的配置檔案 spiders items.py 專案的目標檔案 sp...

Git的基本介紹安裝以及配置

git是一款免費 開源的分布式版本控制系統,用於敏捷高效地處理任何或小或大的專案 1.配置使用者名稱 提交時會引用 git config global user.name duda duda名字可以換成自己起的名字 2.配置郵箱 提交時會引用 git config global user.email...

scrapy基本介紹及執行原理

1 scrapy是用純python實現乙個為了爬取 資料 提取結構性資料而編寫的應用框架,用途廣泛。2 使用者只需要定製開發的幾個模組就能輕鬆實現乙個爬蟲,用來抓取網頁內容 1 scrapy engine 引擎 負責spider itempipline scheduler中間的通訊,訊號 資料傳遞等...