爬蟲Scrapy框架的安裝和使用(Python)

2021-08-17 10:55:47 字數 1236 閱讀 6136

好處: 省事,快速搭建乙個系統,快速抓取資料。

壞處: 細節不清楚,框架的限制需要考慮,學習成本高,可能隱藏了很多未知的問題。

安裝scrapy in ubuntu:

sudo apt-get install python-dev python-piplibxml2-dev libxslt1-dev

sudo pip install scrapy

1).  新建爬蟲專案

scrapy  startproject  projectname

專案目錄結構:

tarena@tedu:~/spider/tencentspider$tree.:

├──scrapy.cfg

└──tencentspider

├── __init__.py

├── items.py

├── middlewares.py

├── pipelines.py

├── settings.py

└── spiders

└── __init__.py

明確目標:明確你想要抓取的目標,生成乙個具體的爬蟲:

scrapy  genspider tencent

scrapy genspider tencent hr.tencent.com

下面需要具體取修改**邏輯,按照我們的需求去實現自己的爬蟲邏輯:

修改setttings.py 設定

pipelines.py儲存的邏輯

tecent.py,   抓取頁面資訊和繼續跳轉的邏輯

items.py     儲存item的對映

3) 製作爬蟲 (spiders/spidername.py):製作爬蟲開始爬取網頁;

4) 儲存內容 (pipelines.py):設計管道儲存爬取內容;       

5) 在scrapy下啟動爬蟲:

scrapy crawl tencent

bot_name = 'tencentspider'   # 爬蟲名字

# 可以指定多個儲存邏輯的管道

item_pipelines = {

"mysqlpipelines": 300,       # 300表示優先順序居中

"filepipelines": 200,            # 300表示優先順序居中

安裝scrapy 爬蟲框架

安裝scrapy 爬蟲框架 個人根據學習需要,在windows搭建scrapy爬蟲框架,搭建過程種遇到個別問題,共享出來作為記錄。1.安裝python 2.7 1.2配置環境變數 以下內容新增到path中 c python27 c python27 scripts 開啟cmd執行如下內容 c pyt...

安裝 python 爬蟲框架 Scrapy

官方安裝說明文件 一 scrapy 需要以下依賴 二 一般來說,你可以通過以下命令直接安裝 scrapy 依賴會被自動安裝 pip3 install scrapy注 關於pip 和 pip3 的區別,請看 這裡 三 乙個常見的問題是 安裝 twisted 時,會報 microsoft visual ...

scrapy爬蟲框架

作者經過幾周的python爬蟲實踐之後,深入學習了一下scrapy這個爬蟲框架,現將一些基本知識和 總結整理一下,以備後查。2.scrapy的命令列使用 這部分網上很多部落格都有總結,不需要背,理解會用主要的命令 startproject crawl fetch list genspider.即可,...