Scrapy 安裝介紹以及基本操作

目前我是使用第二種方法，利用anaconda安裝scrapy框架。比較簡單不會出現公升級 pip 提示。

1. 在日常寫**的目錄下，建乙個資料夾「scrapy測試」

2.終端中輸入： cd (注意cd後有乙個空格)，接著進入該資料夾

3. 在終端輸入指令：scrapy startproject wxz ，在該資料夾中建立專案

4.建立spider檔案，在終端中輸入scrapy genspider taobaospider baidu.com，這個命令是指定要爬蟲的檔名和**的網域名稱，命令格式為：scrapy genspider taobaospider + 目標**的網域名稱。執行效果如圖所示：

在資料夾下看見的效果圖：

它們的作用分別是：

items.py:定義爬蟲程式的資料模型

middlewares.py:定義資料模型中的中介軟體

pipelines.py:管道檔案,負責對爬蟲返回資料的處理

settings.py:爬蟲程式設定,主要是一些優先順序設定,優先順序越高,值越小

scrapy.cfg:內容為scrapy的基礎配置

值得注意的是，在學習階段，我們要明白幾點設定檔案setting中的幾處配置**，它們影響著我們的爬蟲的效率：

robotstxt_obey = true

這行**意思是：是否遵守爬蟲協議，學習階段我們要改為false

spider_middlewares = {

'wxz.middlewares.wxzspidermiddleware': 800,

這裡的數值越低，速度越快。

***進行初步採集:

如進行setting配置，可能出現的問題

setting文件中，mycustom**********middleware 未定義。(

進入middlewares.py檔案中，發現確實未定義該類，只定義了moviespiderspidermiddleware 。

故，在setting中替換掉 mycustom**********middleware 即可。

Scrapy框架安裝與介紹

怎麼判定安裝成功呢？終端輸入scrapy 回車顯示如圖即為安裝成功首先要建立乙個新的scrapy專案，預設是在c盤建立，如果要建立在別的盤裡可以通過cd 加上空格或d 的形式其中baidu是專案名稱 scrapy.cfg 專案的配置檔案 spiders items.py 專案的目標檔案 sp...

Git的基本介紹安裝以及配置

git是一款免費開源的分布式版本控制系統，用於敏捷高效地處理任何或小或大的專案 1.配置使用者名稱提交時會引用 git config global user.name duda duda名字可以換成自己起的名字 2.配置郵箱提交時會引用 git config global user.email...

scrapy基本介紹及執行原理

1 scrapy是用純python實現乙個為了爬取資料提取結構性資料而編寫的應用框架，用途廣泛。2 使用者只需要定製開發的幾個模組就能輕鬆實現乙個爬蟲，用來抓取網頁內容 1 scrapy engine 引擎負責spider itempipline scheduler中間的通訊，訊號資料傳遞等...

Scrapy 安裝介紹以及基本操作

Scrapy框架安裝與介紹

Git的基本介紹安裝以及配置

scrapy基本介紹及執行原理

相關推薦