scrapy基本結構、爬取流程、定義隨機請求頭、抓取非同步網頁請參考:scrapy框架–基礎結構加爬取非同步載入資料的**專案完整例項
items.py
class
booksitem
(scrapy.item)
:# define the fields for your item here like:
# name = scrapy.field()
book_name = scrapy.field(
)# 圖書名
book_star = scrapy.field(
)# 圖書評分
book_pl = scrapy.field(
) book_author = scrapy.field(
)# 圖書作者
book_publish = scrapy.field(
)# 出版社
book_date = scrapy.field(
)# 出版日期
book_price = scrapy.field(
)# 圖書**
spider.py
import scrapy
from scrapy import selector
from books.items import booksitem
class
bookspiderspider
(scrapy.spider)
: name =
'bookspider'
allowed_domains =
['douban.com'
] start_urls =
['']# 自定義start_requests方法 多頁爬取
defstart_requests
(self)
:for i in
range(2
,4):
yield scrapy.request(url=
''%i,callback=self.parse)
# 資料解析
defparse
(self, response)
: sel = selector(response)
book_list = sel.css(
'#subject_list > ul > li'
)print
(response.request.headers)
for i in book_list:
item = booksitem(
)try
:# strip() 方法用於移除字串頭尾指定的字元(預設為空格)
#啟動爬蟲命令
#自定義py檔案 pycharm內執行爬蟲
cmdline.execute(
'scrapy crawl one1'
.split(
))
使用scrapy框架爬取資料並存入excel表中
爬取 爬取目標 獲得乙個地區七天之內的天氣狀況,並存入excel 中 爬蟲檔案部分 import scrapy from items import tianqiyubaoitem class tianqispider scrapy.spider name tianqi allowed domains...
Scrapy爬取資料存入Mongodb中
這次使用scrapy簡單的爬取一些多列表電影資料,儲存在csv檔案及json檔案中,最後把這些資料全部儲存在mongodb中。涉及的知識點有pipeline,yield,中介軟體,xpath,items 的使用。coding utf 8 import scrapy from douban.items...
單執行緒爬取豆瓣TOP250,超簡單
用到的第三方庫 requests,lxmlimport requests from lxml import etree for i in range 0 251,25 num i 簡單的反爬蟲處理,如果沒有這個,會爬取不了 headers url f rps requests.get url,hea...