Python網路爬蟲基礎 week04

2021-10-02 22:55:49 字數 1413 閱讀 5308

scrapy的安裝

pip install scrapy  #安裝

scrapy -h #測試效果

「5+2」結構:5個模組,2個中介軟體

使用者需要編寫的模組有:spiders、item pipelines

框架解析

engine

**********

schedule

中介軟體:********** middleware

spider

item pipelines

中介軟體:spider middleware

requests庫和scrapy爬蟲的比較

requests

scrapy

頁面級爬蟲

**級爬蟲

功能庫框架

併發性考慮不足,效能較差

併發性好,效能較高

重點在於爬蟲結構

定製靈活

一般定製靈活,深度定製困難

上手十分簡單

入門稍難

scrapy爬蟲的常用命令

命令說明

格式startproject

建立乙個新工程

scrapy startproject [dir]

genspider

建立乙個爬蟲

scrapy genspider [options]

settings

獲得爬蟲配置資訊

scrapy settings [options]

crawl

執行乙個爬蟲

scrapy crawl

list

列出工程中所有爬蟲

scrapy list

shell

啟動url除錯命令列

scrapy shell [url]

scrapy爬蟲的第乙個例項

步驟1:建立乙個scrapy爬蟲工程

scrapy startproject python123demo
步驟2:在工程中產生乙個scrapy爬蟲

scrapy genspider demo python123.io
步驟4:執行爬蟲,獲取網頁

scrapy crawl demo
yield關鍵字的使用

yield:生成器

scripy爬蟲的基本使用

資料型別

request類

response類

item類

Python網路爬蟲基礎

爬蟲,即網路爬蟲,大家可以理解為在網路上爬行的一直蜘蛛,網際網路就比作一張 大網,而爬蟲便是在這張網上爬來爬去的蜘蛛咯,如果它遇到資源,那麼它就會抓取下來。因此,使用者看到的網頁實質是由 html 構成的,爬蟲爬來的便是這 些內容,通過分析和過濾這些 html 實現對 文字等資源的獲取。url,即統...

Python網路爬蟲基礎 一

2.urllib和urllib2模組使用 3.requests模組使用 4.python三種網頁內容抓取方法 當瀏覽器向web伺服器發出請求時,它向伺服器傳遞了乙個資料塊,也就是請求信 息,http請求資訊由3部分組成 請求方法 uri 協議 版本 請求頭 request header 請求正文 右...

網路爬蟲基礎

0.可以新建乙個用於練習的html檔案,在瀏覽器中開啟。1.利用requests.get url 獲取網頁頁面的html檔案 import requests newsurl res requests.get newsurl 返回response物件 res.encoding utf 8 2.利用be...