scrapy的安裝,scrapy建立專案

2022-09-10 04:45:14 字數 3120 閱讀 9746

簡要:

scrapy的安裝

# 1)pip install scrapy -i 國內源)

一步到位

# 2) 報錯1: building 'twisted.test.raiser' extension

# error: microsoft visual c++ 14.0 is required. get it with "microsoft visual c++

# build tools":

# 解決1

#

# twisted‑20.3.0‑cp37‑cp37m‑win_amd64.whl

# cp是你的python版本

# amd是你的作業系統的版本

# 切記安裝完twisted 再次安裝scrapy

pip install scrapy -i

# 3) 報錯2:提示python -m pip install --upgrade pip

# 解決2 執行python -m pip install --upgrade pip

# 4) 報錯3 win32的錯誤

# 解決3 pip install pypiwin32

# 5)使用 anaconda

scrapy建立專案

cmd 到專案資料夾中

或者直接拖入

如果返回沒有許可權,使用管理員執行cmd

1.建立scrapy專案:

終端輸入 scrapy startproject 專案名稱

scrapy_baidu\下的資料夾

2.專案組成:

spiders 

__init__.py       

自定義的爬蟲檔案.py —>由我們自己建立,是實現爬蟲核心功能的檔案

__init__.py

items.py —>定義資料結構的地方,是乙個繼承自scrapy.item的類

middlewares.py —>中介軟體 **

預設是300優先順序,值越小優先順序越高(1‐1000)

settings.py —>配置檔案 比如:是否遵守robots協議,user‐agent定義等

3.建立爬蟲檔案:

1)跳轉到spiders資料夾 cd 目錄名字/目錄名字/spiders

2)scrapy genspider 爬蟲名字 網頁的網域名稱

爬蟲檔案的基本組成:

繼承scrapy.spider類

name = 'baidu' —> 執行爬蟲檔案時使用的名字

allowed_domains —> 爬蟲允許的網域名稱,在爬取的時候,如果不是此網域名稱之下的

url,會被過濾掉

start_urls —> 宣告了爬蟲的起始位址,可以寫多個url,一般是乙個

parse(self, response) —> 解析資料的**函式

response.text —> 響應的是字串

response.body —> 響應的是二進位制檔案

response.xpath()—> xpath方法的返回值型別是selector列表

extract() —> 提取的是selector物件的是data

extract_first() —> 提取的是selector列表中的第乙個資料 

4.執行爬蟲檔案:scrapy crawl baidu

scrapy crawl 爬蟲名稱

注意:應在spiders資料夾內執行 

#爬蟲的名字 用於執行爬蟲的時候 使用的值

允許訪問的網域名稱

allowed_domains = ['

']#起始的url位址 指的是第一次要訪問的網域名稱

#start_urls 是在allowed_domains的前面新增乙個http://

#在 allowed_domains的後面新增乙個/

start_urls = ['

/']#是執行了start_urls之後 執行的方法 方法中的response 就是返回的那個物件

#相當於 response = urllib.request.urlopen()

#response = requests.get()

defparse(self, response):

print('

你好世界

')

scrapy 安裝 安裝scrapy時出錯

python3環境下安裝scrapy 環境 win7,win10 python 3.5.2 1.首先開啟anaconda prompt 執行命令 pip install scrapy 若未出錯,表示安裝成功,鍵入以下命令測試即可 python 進入python環境 再鍵入 import scrapy...

scrapy(一)scrapy 安裝問題

pip install scrapy 注 若出現以下安裝錯誤 building twisted.test.raiser extension error microsoft visual c 14.0 is required.get it with microsoft visual c build t...

scrapy 安裝步驟

參考 1.安裝python 2.安裝setuptools 或者 pip ubuntu linux sudo apt get install python pip 解壓後進入資料夾執行 python setup.py install 3.安裝lxml lxml是一種使用 python 編寫的庫,可以迅...