爬取tencent職位招聘的

2021-08-16 18:34:47 字數 1684 閱讀 7240

import scrapy

from scrapy.linkextractors import linkextractor

from scrapy.spiders import crawlspider, rule

from tencentspider.items import tencentspideritem,tencentdetailitem

class tencentspider(crawlspider):

name = 'tencent'

allowed_domains = ['hr.tencent.com'] # 如果指定,如果其他**匹配到了下面的格式的話,就會去

# 別的**去爬取

start_urls = ['']

"""linkextractor(allow='start=\d+')返回的是乙個列表,rule依次傳送請求,並且繼續跟進,呼叫指定函式去處理

"""rules = [

# rule(linkextractor(allow='start=\d+'), callback='parse_tencent', follow=true),

rule(linkextractor(allow='position_detail.php'),callback='parse_info',follow=true)

]def parse_tencent(self, response):

link_list = response.xpath("//tr[@class='even'] | //tr[@class='odd']")  #可以這樣篩選

for each in link_list:

item = tencentspideritem()

item['position_name'] = each.xpath("./td[1]/a/text()").extract()[0]

item['position_link'] = each.xpath("./td[1]/a/@href").extract()[0]

position_type = each.xpath("./td[2]/text()").extract()[0]

if not position_type:

position_type = "為空"

item['position_type'] = position_type

item['position_need'] = each.xpath("./td[3]/text()").extract()[0]

item['position_place'] = each.xpath("./td[4]/text()").extract()[0]

item['position_time'] = each.xpath("./td[5]/text()").extract()[0]

yield item

"""這個可以將 本頁面中的鏈結都取出來進去將資料爬下來"""

def parse_info(self,response):

"""可以將"""

item = tencentdetailitem()

item['position_name'] = response.xpath('//*[@id="sharetitle"]').extract()[0]

yield item

"""其他設定和其他文章沒有太大的區別"""

Python爬取智聯招聘職位資訊

from urllib import request from urllib import parse from bs4 import beautifulsoup import csv 管理json資料的模組的 import json 定義智聯的爬蟲類 class zhilianspider obj...

用Python爬取拉鉤網招聘職位資訊

本文實現自動爬取拉鉤網招聘資訊,並將爬取結果儲存在本地文字中 也可以將資料存入資料庫 使用到的python模組包 python3 1.urllib.request 2.urllib.parse 3.json 簡單分析 1.在向伺服器傳送請求,需要傳入post引數 2.搜尋的職位列表資訊存在乙個jos...

堆疊資訊獲取value 招聘職位資訊爬取

1 網路抓包 我使用的是谷歌瀏覽器,通過抓包分析發現職位資訊請求的資料介面是 構造請求引數,請求資料,示例 如下 get position函式需要傳達兩個引數,kd代表請求的關鍵字,pn代表請求的頁數。這樣的確可以請求到拉勾的職位資料,當我們實際執行指令碼的時候就會發現,在抓取10頁資料之後,便會請...