scrapy簡單使用

2022-02-24 15:35:47 字數 589 閱讀 1358

#settings.py檔案設定

#如果**中沒有robots檔案,就不會抓取任何資料

robotstxt_obey = false

#設定請求頭

default_request_headers =

#啟動pipline(檔案68行,取消注釋即可)

item_pipelines =

#建立專案和爬蟲

1.建立專案:'scrapy startproject [爬蟲的名字]'

2.建立爬蟲:進入到專案所在的路徑,執行命令 'scrapy genspider [爬蟲名字] [爬蟲網域名稱]'

注意:爬蟲名字不能和專案名一樣

#專案目錄結構

1.items.py: 用來存放爬蟲爬取下來的資料的模型

2.middlewares.py: 用來存放各種中介軟體的檔案

3.pipelines.py: 用來將items的模型儲存到本地磁碟中

4.settings.py: 本爬蟲的一些配置資訊(比如請求頭,多久傳送一次請求,ip**池等)

5.scrapy.cfg: 專案的配置檔案

6.spider包: 以後所有的爬蟲都放到這個裡面

scrapy簡單使用方法

步驟 1 在編譯器 我用的pycharm 裡新建資料夾,名稱隨意 2 從終端 anaconda prompt 中進入所建立的資料夾 anaconda prompt中切換c盤和d盤方法見上篇部落格 3 在該資料夾中建立scrapy框架,即執行命令 scrapy startproject name其中,...

網路爬蟲(三) 簡單使用scrapy

一.首先簡單了解scrapy的架構 官方給出的解釋 spiders spider是scrapy使用者編寫用於分析response並提取item 即獲取到的item 或額外跟進的url的類。每個spider負責處理乙個特定 或一些 item pipeline item pipeline負責處理被spi...

scrapy簡單爬蟲

coding utf 8 這只是爬蟲檔案內容,使用pycharm執行,在terminal中使用命令列,要用爬蟲名字 import scrapy from insist.items import insistitem class insistsspider scrapy.spider name ins...