Python網路爬蟲基礎 week04

scrapy的安裝

pip install scrapy #安裝

scrapy -h #測試效果

「5+2」結構：5個模組，2個中介軟體

使用者需要編寫的模組有：spiders、item pipelines

框架解析

engine

**********

schedule

中介軟體：********** middleware

spider

item pipelines

中介軟體：spider middleware

requests庫和scrapy爬蟲的比較

requests

scrapy

頁面級爬蟲

**級爬蟲

功能庫框架

併發性考慮不足，效能較差

併發性好，效能較高

重點在於爬蟲結構

定製靈活

一般定製靈活，深度定製困難

上手十分簡單

入門稍難

scrapy爬蟲的常用命令

命令說明

格式startproject

建立乙個新工程

scrapy startproject [dir]

genspider

建立乙個爬蟲

scrapy genspider [options]

settings

獲得爬蟲配置資訊

scrapy settings [options]

crawl

執行乙個爬蟲

scrapy crawl

list

列出工程中所有爬蟲

scrapy list

shell

啟動url除錯命令列

scrapy shell [url]

scrapy爬蟲的第乙個例項

步驟1：建立乙個scrapy爬蟲工程

scrapy startproject python123demo

步驟2：在工程中產生乙個scrapy爬蟲

scrapy genspider demo python123.io

步驟4：執行爬蟲，獲取網頁

scrapy crawl demo

yield關鍵字的使用

yield：生成器

scripy爬蟲的基本使用

資料型別

request類

response類

item類

Python網路爬蟲基礎

爬蟲，即網路爬蟲，大家可以理解為在網路上爬行的一直蜘蛛，網際網路就比作一張大網，而爬蟲便是在這張網上爬來爬去的蜘蛛咯，如果它遇到資源，那麼它就會抓取下來。因此，使用者看到的網頁實質是由 html 構成的，爬蟲爬來的便是這些內容，通過分析和過濾這些 html 實現對文字等資源的獲取。url，即統...

Python網路爬蟲基礎一

2.urllib和urllib2模組使用 3.requests模組使用 4.python三種網頁內容抓取方法當瀏覽器向web伺服器發出請求時，它向伺服器傳遞了乙個資料塊，也就是請求信息，http請求資訊由3部分組成請求方法 uri 協議版本請求頭 request header 請求正文右...

網路爬蟲基礎

0.可以新建乙個用於練習的html檔案，在瀏覽器中開啟。1.利用requests.get url 獲取網頁頁面的html檔案 import requests newsurl res requests.get newsurl 返回response物件 res.encoding utf 8 2.利用be...

Python網路爬蟲基礎 week04

Python網路爬蟲基礎

Python網路爬蟲基礎 一

網路爬蟲基礎

相關推薦

Python網路爬蟲基礎一