Scrapy爬取兩萬張小姐姐並按資料夾儲存

2021-08-30 21:49:52 字數 2519 閱讀 4773

scrapy startproject tupian
# -*- coding: utf-8 -*-

# define here the models for your scraped items

## see documentation in:

# import scrapy

class tupianitem(scrapy.item):

name = scrapy.field() #的名稱

image_paths = scrapy.field() #的路徑

import scrapy

import tupian.items

class pic(scrapy.spider):

name = 'picspider' #自定義爬蟲的名稱

allow_domain = ['']

start_urls = ['/special/bizhi.html'] #開始爬取的位址

def parse(self, response):

list = response.css('.plist13 li') #獲取圖集的url集合的鏈結

for img in list: #迴圈取出每個圖集的url

imgname = img.css('p ::text').extract_first() #圖集的名稱

imgurl = img.css('a ::attr(href)').extract_first() #圖集的url

print('imgname:'+imgname+'\t''imgurl:'+str(imgurl)+'\n') #列印圖集的名稱和鏈結

if next_url is not none:

yield scrapy.request(imgurl, callback=self.content)#解析當頁的圖集

def content(self, response):

item = tupian.items.tupianitem()

item['name'] = response.css('.img img ::attr(alt)').extract_first()#獲取的名稱

item['url'] = response.css('.img img ::attr(src)').extract()#獲取的url列表

scrapy 爬取流程

什麼時候到pipeline,什麼 時候到spider這個就不說了,這個是框架跳轉到的流程 關鍵是訪問之前要登入怎麼辦,資料還要注入呢 這是個列表,裡面就是爬取的鏈結了 我們前面爬取就只是寫了乙個,但是其實可以寫多個 鏈結又是怎麼訪問的呢 這東西你就可以手動提取鏈結返回了 這東西你就得好好注意了 從入...

scrapy 爬取小說

速度是相當的快的 爬取整站的 最後結果儲存至mongodb資料庫 pycharm開發還是很好用的 建立專案 scrapy startproject daomubiji 執行專案 scrapy crawl daomubi settings default request headers items t...

scrapy爬取噹噹

import scrapy from items import dangdangitem class ddspider scrapy.spider name dd allowed domains dangdang.com start urls def parse self,response 使用xp...