基於python的 scrapy框架使用步驟

2021-08-16 06:01:57 字數 916 閱讀 5012

# -*- coding:utf-8 -*-

# scrapy

的基本用法

# 1.

通過命令建立專案

# scrapy startproject

專案名稱

# 2.

用pycharm

開啟專案

# 3.

通過命令建立爬蟲

# scrapy genspider

爬蟲名稱 網域名稱

# 4.

配置settings

# robots_obey=false

# download_delay=0.5

# cookie_enable=false

# 5.

自定義useragentmiddleware# 將

**********_middlewares中,

改為'ivskyspider.middlewares.useragentmiddleware': 543,

# 'scrapy.**********middlewares.useragent.useragentmiddleware' : none,

# useragent

可以直接粘現成的

# 或者自己通過研究原始碼實現

# 6.

開始解析資料

# 1)

先大致規劃一下需要幾個函式

# 2) 函式1

跳轉到函式2使用

yield scrapy.request(url,callback,meta,dont_filter)

# 7.

將資料封裝到

items,

記得yield item

# 8.

自定義pipelines

將資料儲存到資料庫

/檔案中

python基於scrapy配置日誌

setting檔案配置log日誌 start logger configure setting current day datetime.datetime.now log enabled true 啟用日誌,預設不啟用 log encoding utf 8 預設 utf 8 logging使用的編碼...

基於scrapy的爬蟲小記

建立scrapy專案 scrapy startproject tutorial 該條命令的作用是建立乙個名叫tutorial的爬蟲專案 檔案結構為 tutorial scrapy.cfg 專案的配置檔案 tutorial init py items.py 自定義你爬下來儲存的資料型別 pipelin...

基於Scrapy爬蟲框架的執行原理

scrapy是乙個非常強大的第三方庫,也是乙個提高爬蟲效率的框架,入門較難。框架內部包含模組可以描述為 5 2 模組,包含 spiders,item piplines engine scheduler 而engine和spiders,之間包含了兩個中間鍵模組,因此叫 5 2 模組。從spider經過...