站長之家(素材網)

2021-08-19 05:29:22 字數 1565 閱讀 5384

# -*- coding: utf-8 -*-

import scrapy

from ..items import jlitem

class chainazspider(scrapy.spider):

name = 'chainaz'

allowed_domains = ['chinaz.com']

start_urls = ['']

base_url = ''

def parse(self, response):

# 找到簡歷模板的url位址

url = response.xpath('//li[contains(@class,"no3")]/a[4]/@href').extract_first('')

# 拼接完整的位址

url = self.base_url+url

yield scrapy.request(

url = url,

callback=self.parse_free

)# 找到免費模板鏈結

def parse_free(self, response):

url = response.xpath('//a[@class="fufei"]/@href').extract_first('')

yield scrapy.request(

url = self.base_url+url,

callback=self.parse_detail

)# 解析免費模板中每乙個模板鏈結

def parse_detail(self, response):

# 找到所有模板的鏈結

mb_links = response.xpath('//div[contains(@class,"picblock")]/div/a/@href').extract()

# for迴圈遍歷每乙個鏈結

for link in mb_links:

# 根據url位址,建立請求物件

yield scrapy.request(

url=link,

callback=self.parse_jlmb

)def parse_jlmb(self, response):

img_src = response.xpath('//div[@id="sharelist"]/span/img/@src').extract_first('')

download_url = response.xpath('//div[@class="dian"][2]/a[1]/@href').extract_first('')

# 找到簡歷名稱

name = response.xpath('//h2/a[2]/text()').extract_first('')

# print(name,img_src,download_url)

item = jlitem()

item['name'] = name

item['img_src'] = [img_src]

item['download_url'] = [download_url]

yield item

站長之家網頁模板爬取(未分頁)

import requests from lxml import etree import os ifnot os.path.exists moban1 os.mkdir moban1 if name main headers url 獲取當前頁面資料 reponse requests.get ur...

使用xpath解析站長素材 免費簡歷模板

關於使用什麼模組寫爬蟲做資料解析,並沒有刻板的規定,鑑於正在學習仍使用xpath 分析站長素材網的免費簡歷模板,需求分析不再贅述,且看編碼過程 usr bin env python encoding utf 8 file 解析站長素材 免費簡歷模板.py time 2020 2 29 14 30 i...

詳解站長之家之站長工具四大新功能

360站長工具,第三方站長工具就多如螞蟻了。搜尋引擎的站長工具和第三方站長工具各有千秋,特別是隨著各自功能的完善,站長能更加得心應手地使用好這些工具,從而管理好 筆者認為搜尋引擎的站長工具對站長起著指引的作用,而第三方站長工具讓站長通過查詢 的資料,了解 的變化,搜尋引擎的變化,優化的趨勢等。201...