Scrapy python爬蟲框架 入門筆記

2021-08-19 22:57:00 字數 1512 閱讀 5756

本文章僅作為個人筆記

scrpy官網

scrpy官方文件

scrpy中文文件

個人scrapydemo專案位址

python環境安裝

pip: easy_install pip

mac下安裝:

centos7下安裝:

scrapy 安裝

pip install scrapy
建立專案
scrapy startproject
建立爬蟲
scrapy genspider
在資料夾根目錄建立 requirements.txt檔案並加入需要的元件,例如:
scrapy==1.5.0

beautifulsoup4==4.6.0

requests==2.18.4

專案環境搭建
pip install -r requirements.txt
執行單個爬蟲
scrapy crawl
執行多個爬蟲(scrapy本身並不支援命令列直接執行多個spiders,建立乙個新的python檔案加入如下內容執行此python檔案便可)(需按需更改)
# -*- coding: utf-8 -*-

import sys

from scrapy.crawler import crawlerprocess

from scrapy.utils.project import get_project_settings

from scrapydemo.spiders.news_estadao import estadaospider

from scrapydemo.spiders.news_gazetaesportiva import demospider

from scrapydemo.spiders.news_megacurioso import megacuriosospider

if sys.getdefaultencoding != 'utf-8':

reload(sys)

sys.setdefaultencoding('utf-8')

process = crawlerprocess(get_project_settings())

process.crawl(estadaospider)

process.crawl(demospider)

process.crawl(megacuriosospider)

process.start()

啟用pipelines用於處理結果

輸出單個spider執行結果到檔案

scrapy crawl demo -o /path/to/demo.json
多個spider的結果混合處理:

解決結果爬蟲資訊亂碼問題:

爬蟲示例,也可以使用文頂給出的github鏈結:

pycharm下debug spiders:

Scrapy Python的爬蟲框架

木頭lbj 整理,您也想貢獻乙份力量?歡迎 加入我們 網路爬蟲,是在網上進行資料抓取的程式,使用它能夠抓取特定網頁的html資料。雖然我們利用一些庫開發乙個爬蟲程式,但是使用框架可以大大提高效率,縮短開發時間。scrapy是乙個使用python編寫的,輕量級的,簡單輕巧,並且使用起來非常的方便。sc...

網路爬蟲(蜘蛛)Scrapy,Python安裝!

scrapy,python安裝,使用!latest python 2 release python 2.7.6,安裝時選擇當前使用者。2 到 pywin32 219.win amd64 py2.7.exe 3 將c python27 scripts c python27 新增到環境變數裡。4 vis...

Scrapy Python3 學習計畫

精通scrapy網路爬蟲 目標 使用scrapy寫出大型爬蟲能力周時間 學習內容 目標是否完成 第一周2020 04 21 第一章 初識scrapy 了解scrapy ok2020 04 22 第二章 編寫spider 2.1scrapy框架結構及工作原理 2.2request和response物件...