python爬蟲框架之Scrapy

2021-09-14 03:38:37 字數 1383 閱讀 4515

scrapy

是乙個爬蟲框架,提取結構性的資料。其可以應用在資料探勘,資訊處理等方面。提供了許多的爬蟲的基類,幫我們更簡便使用爬蟲。基於twisted

準備步驟

首先安裝依賴庫twisted

在這個** 下面去尋找符合你的python版本和系統版本的twisted

​pip install (依賴庫的路徑)

然後在安裝scrapy框架

​ pip install scrapy

用法1.建立專案

在cmd路徑下輸入指令

scrapy startproject 專案名

2.專案目錄結構

firstspider

firstspider

spiders                  爬蟲目錄(寫**位置)

__init__.py

myspider.py       爬蟲檔案,以後的爬蟲**寫在這裡

__init__.py

items.py                定義資料結構地方

middlewares.py     中介軟體(了解)

pipelines.py           管道檔案

settings.py            專案配置檔案

scrapy.cfg

專案建立處理,裡面是沒有爬蟲的,我們需要通過指令來建立乙個爬蟲:

scrapy genspider 專案名字 網域名稱(baidu.com)

3.定製item.py,其實就是您的資料結構

4.撰寫蜘蛛

根據response獲取網頁內容

response.text    字串型別

response.body    二進位制型別

列印response物件,簡單的跑一把

指令scrapy crawl qiubai

【注意】抓取的時候會出錯執行

pip install pypiwin32

5.執行(自動生成對應格式檔案)

scrapy crawl qiubai -o qiubai.json

scrapy crawl qiubai -o qiubai.xml

scrapy crawl qiubai -o qiubai.csv

用scrapy寫爬蟲的一步驟:

1)建立專案 scrapy startproject 專案名

2)建立爬蟲 scrapy genspider 爬蟲名 網域名稱

​        執行爬蟲 scrapy crawl 爬蟲名 [-o xx.json/xml/csv]

3)根據需求編寫item

4)在spiders裡面解析資料

5)在管道中處理解析完的資料

windows系統下搭建爬蟲框架scrapy

摘要 本機環境為windows 7,64位系統,python 2.7 裝成了32位的了 1.安裝twisted 安裝完成後,你會在c python27 lib site packages目錄下看到twisted資料夾 2.安裝zope.inte ce 很多版本,根據windows位數,python版...

Python之scrapy框架爬蟲

scrapy命令詳解 可能是如今最全最簡單的scrapy命令解釋 明天上班,又要爬 現在每天做的工作有50 的時間爬 40 的時間清理資料,10 寫報告。若想自學資料分析,側重點很重要,我當初把大部分經歷放在了python的pandas numpymatplotlib上面,其他時間一部分放在sql身...

Python爬蟲高階一之爬蟲框架概述

爬蟲入門之後,我們有兩條路可以走。乙個是繼續深入學習,以及關於設計模式的一些知識,強化python相關知識,自己動手造輪子,繼續為自己的爬蟲增加分布式,多執行緒等功能擴充套件。另一條路便是學習一些優秀的框架,先把這些框架用熟,可以確保能夠應付一些基本的爬蟲任務,也就是所謂的解決溫飽問題,然後再深入學...