「黑客」入門 爬蟲scrapy初體驗

2021-10-03 06:29:22 字數 2052 閱讀 1646

歡迎關注,敬請點讚!

pip install scrapy

需要在專案根目錄下,如d:\python\spider>

執行:scrapy startproject 專案名(如:lab),d:\python\spider>scrapy startproject lab

進入專案內:cd 專案名,d:\python\spider>cd lab

scrapy genspider 爬蟲名 爬取**(不需要綴http://)

以scrapy爬蟲實驗室為例:scrapy genspider lab_scrapy lab.scrapyd.cn

對settings.py檔案中的爬蟲君子協定和延時進行設定,也可以忽略。

# obey robots.txt rules 爬蟲君子協定(暫調為false)

robotstxt_obey =

false

download_delay =

3# 延時

返回頂部

可以使用shell模式,嘗試不熟悉的命令,減少**報錯頻率。

scrapy shell 爬取**

以scrapy爬蟲實驗室為例:d:\python\spider>scrapy shell

在shell模式下,可以嘗試css選擇器的使用:

獲取第乙個class為"quote.post"的div盒子:

in [1]

: post = response.css(

"div.quote.post")[

0]

進一步獲取裡面的text,獲取文字內容的方法是::text,不再是text()

in [2]

: post.css(

"span.text::text"

).extract()[

0]

獲取a標籤裡面的路由hrefa::attr(href)

in [3]

: post.css(

"span a::attr(href)"

).extract()[

0]

退出shell模式,使用exitquit

in [4]

: exit

scrapy crawl 爬蟲名

以scrapy爬蟲實驗室為例:scrapy crawl lab_scrapy

lab_scrapy.py的**如下:

import scrapy

class

labscrapyspider

(scrapy.spider)

: name =

'lab_scrapy'

allowed_domains =

[''] start_urls =

['/'

]def

parse

(self, response)

: posts = response.css(

"div.quote.post"

)for post in posts:

print

(post.css(

"span.text::text"

).extract()[

0])print

(post.css(

"span a::attr(href)"

).extract()[

0])

scrapy是乙個類似於django的爬蟲框架。

歡迎關注,敬請點讚!

返回頂部

scrapy之爬蟲初體驗

本篇文章主要將怎樣建立乙個scrapy專案,以及完成第乙個scrapy爬蟲專案。首先是安裝scrapy模組,有很多原因都能導致scrapy模組安裝失敗,網上有很多教程讓怎樣安裝scrapy。親測比較有效的方法使用whl檔案安裝。不過有小夥伴也可以嘗試直接使用pip install scrapy命令進...

Scrapy爬蟲庫使用初體驗

安裝pip install scrapy 中間可能會遇到的問題 建立專案 其中 是你的專案名 本文中使用tutorial 目錄如上圖所示 在items.py中寫入需要儲存的字段 import scrapy class tutorialitem scrapy.item define the field...

Scrapy框架系列 爬蟲利器之初體驗(1)

pip install scrapyscrapy startproject doubantop250 專案名稱 scrapy crawl douban 後面會解釋,這個 dougban 是從 來的,此處先留乙個小坑 yield itemclass doubantop250pipeline objec...