scrapy 單執行緒爬取並存入mwsql

2021-10-21 03:30:07 字數 4064 閱讀 9553

scrapy基本結構、爬取流程、定義隨機請求頭、抓取非同步網頁請參考:scrapy框架–基礎結構加爬取非同步載入資料的**專案完整例項

items.py

class

booksitem

(scrapy.item)

:# define the fields for your item here like:

# name = scrapy.field()

book_name = scrapy.field(

)# 圖書名

book_star = scrapy.field(

)# 圖書評分

book_pl = scrapy.field(

) book_author = scrapy.field(

)# 圖書作者

book_publish = scrapy.field(

)# 出版社

book_date = scrapy.field(

)# 出版日期

book_price = scrapy.field(

)# 圖書**

spider.py

import scrapy

from scrapy import selector

from books.items import booksitem

class

bookspiderspider

(scrapy.spider)

: name =

'bookspider'

allowed_domains =

['douban.com'

] start_urls =

['']# 自定義start_requests方法 多頁爬取

defstart_requests

(self)

:for i in

range(2

,4):

yield scrapy.request(url=

''%i,callback=self.parse)

# 資料解析

defparse

(self, response)

: sel = selector(response)

book_list = sel.css(

'#subject_list > ul > li'

)print

(response.request.headers)

for i in book_list:

item = booksitem(

)try

:# strip() 方法用於移除字串頭尾指定的字元(預設為空格)

#啟動爬蟲命令

#自定義py檔案 pycharm內執行爬蟲

cmdline.execute(

'scrapy crawl one1'

.split(

))

使用scrapy框架爬取資料並存入excel表中

爬取 爬取目標 獲得乙個地區七天之內的天氣狀況,並存入excel 中 爬蟲檔案部分 import scrapy from items import tianqiyubaoitem class tianqispider scrapy.spider name tianqi allowed domains...

Scrapy爬取資料存入Mongodb中

這次使用scrapy簡單的爬取一些多列表電影資料,儲存在csv檔案及json檔案中,最後把這些資料全部儲存在mongodb中。涉及的知識點有pipeline,yield,中介軟體,xpath,items 的使用。coding utf 8 import scrapy from douban.items...

單執行緒爬取豆瓣TOP250,超簡單

用到的第三方庫 requests,lxmlimport requests from lxml import etree for i in range 0 251,25 num i 簡單的反爬蟲處理,如果沒有這個,會爬取不了 headers url f rps requests.get url,hea...