Scrapy python爬蟲框架入門筆記

本文章僅作為個人筆記

scrpy官網

scrpy官方文件

scrpy中文文件

個人scrapydemo專案位址

python環境安裝

pip： easy_install pip

mac下安裝：

centos7下安裝：

scrapy 安裝

pip install scrapy

建立專案

scrapy startproject

建立爬蟲

scrapy genspider

在資料夾根目錄建立 requirements.txt檔案並加入需要的元件，例如：

scrapy==1.5.0
beautifulsoup4==4.6.0
requests==2.18.4

專案環境搭建

pip install -r requirements.txt

執行單個爬蟲

scrapy crawl

執行多個爬蟲（scrapy本身並不支援命令列直接執行多個spiders，建立乙個新的python檔案加入如下內容執行此python檔案便可）（需按需更改）

# -*- coding: utf-8 -*-
import sys
from scrapy.crawler import crawlerprocess
from scrapy.utils.project import get_project_settings
from scrapydemo.spiders.news_estadao import estadaospider
from scrapydemo.spiders.news_gazetaesportiva import demospider
from scrapydemo.spiders.news_megacurioso import megacuriosospider
if sys.getdefaultencoding != 'utf-8':
reload(sys)
sys.setdefaultencoding('utf-8')
process = crawlerprocess(get_project_settings())
process.crawl(estadaospider)
process.crawl(demospider)
process.crawl(megacuriosospider)
process.start()

啟用pipelines用於處理結果

輸出單個spider執行結果到檔案

scrapy crawl demo -o /path/to/demo.json

多個spider的結果混合處理：

解決結果爬蟲資訊亂碼問題：

爬蟲示例，也可以使用文頂給出的github鏈結：

pycharm下debug spiders：

Scrapy Python的爬蟲框架

木頭lbj 整理，您也想貢獻乙份力量？歡迎加入我們網路爬蟲，是在網上進行資料抓取的程式，使用它能夠抓取特定網頁的html資料。雖然我們利用一些庫開發乙個爬蟲程式，但是使用框架可以大大提高效率，縮短開發時間。scrapy是乙個使用python編寫的，輕量級的，簡單輕巧，並且使用起來非常的方便。sc...

網路爬蟲（蜘蛛）Scrapy,Python安裝！

scrapy,python安裝，使用！latest python 2 release python 2.7.6，安裝時選擇當前使用者。2 到 pywin32 219.win amd64 py2.7.exe 3 將c python27 scripts c python27 新增到環境變數裡。4 vis...

Scrapy Python3 學習計畫

精通scrapy網路爬蟲目標使用scrapy寫出大型爬蟲能力周時間學習內容目標是否完成第一周2020 04 21 第一章初識scrapy 了解scrapy ok2020 04 22 第二章編寫spider 2.1scrapy框架結構及工作原理 2.2request和response物件...

Scrapy python爬蟲框架 入門筆記

Scrapy Python的爬蟲框架

網路爬蟲（蜘蛛）Scrapy,Python安裝！

Scrapy Python3 學習計畫

相關推薦

Scrapy python爬蟲框架入門筆記