使用模板爬拉勾網資料

2021-08-26 05:54:37 字數 1887 閱讀 3017

# -*- coding: utf-8 -*-

import scrapy

from scrapy.linkextractors import linkextractor

from scrapy.spiders import crawlspider, rule

from day12.items import lagouitem

class lagouspider(crawlspider):

name = 'lagou'

allowed_domains = ['lagou.com']

start_urls = ['']

rules = (

# linkextractor 是需要過濾出來的url的正規表示式

# 過濾好的正規表示式會呼叫callback解析頁面的過程

# follow=true 就表示需要獲取這個頁面內的鏈結

# false 不再當前頁面尋找url繼續處理

print('當前為列表頁')

# i = {}

#i['domain_id'] = response.xpath('//input[@id="sid"]/@value').extract()

#i['name'] = response.xpath('//div[@id="name"]').extract()

#i['description'] = response.xpath('//div[@id="description"]').extract()

# return i

def parse_detail(self,response):

print('當前為詳情頁')

title = response.xpath('//span[@class="name"]/text()').extract_first()

print(title)

salary = response.xpath('//span[@class="salary"]/text()').eatract_first()

print(salary)

company = response.xpath('//div[@class="company"]/text()').extract_first()

print(company)

advantage = response.xpath('//dd[@class="job-advantage"]//text()').extract()

advantage = ''.join(advantage)

print(advantage)

job_bt = response.xpath('//dd[class="job_bt"]//text()').extract()

job_bt = ''.join(job_bt)

print(job_bt)

item = lagouitem()

item['title'] = title

item['salary'] = salary

item['company'] = company

item['advantage'] = advantage

item['job_bt'] = job_bt

return item

使用selenium爬拉勾網資料

usr bin env python encoding utf 8 description 使用selenium爬拉勾網資料 from selenium import webdriver from selenium.webdriver.support.ui import webdriverwait ...

Python爬取拉勾網招聘資訊

最近自學研究爬蟲,特找個地方記錄一下 就來到了51cto先測試一下。第一次發帖不太會。先貼個 首先開啟拉勾網首頁,然後在搜尋框輸入關鍵字python。開啟抓包工具。因為我的是mac os,所以用的自帶的safari瀏覽器的開啟時間線錄製。通過抓取post方法,可以看到完整url 然後可以發現post...

拉勾網職位資料爬取 按公司規模爬取

全部的 見我的github 這裡改進了一下之前文章 拉勾網職位資料爬取,由於拉勾網最多隻會顯示30頁的職位資訊,為了獲取更多的職位資訊,就要分類爬取。由於北京的python職位很多,超過了30頁的部分就不顯示了,我為了能夠比較全的爬取資料,就進行了分類爬取。這裡我選擇公司規模這個類別 小於15人 1...