拉勾抓職位簡單小爬蟲

2022-02-23 17:56:28 字數 1347 閱讀 2048

花了十來分鐘寫了個這個小爬蟲,目的就是想能夠方便一點尋找職位,並且大四了,沒有工作和實習很慌啊!

爬蟲不具有擴充套件性,自己隨手寫的,改掉裡面的keywordregion即可爬行所有的招聘,剛開始測試的是5s訪問一次,不過還是會被ban,所以改成了20s一次,沒有使用多執行緒和**池,懶,夠用就行了,結果會儲存到乙個csv檔案裡面,用excel開啟即可。

直接上**:

import requests

import urllib.parse

import json

import time

import csv

def main():

keyword = '逆向'

region = '全國'

headers =

data =

total_count = 1

pn = 1

jobjson =

while 1:

if total_count <= 0:

break

data['pn'] = pn

lagou_reverse_search = requests.post("", headers=headers, data=data)

datajson = json.loads(lagou_reverse_search.text)

print('page %d get finish' % pn)

if pn == 1:

total_count = int(datajson['content']['positionresult']['totalcount'])

jobjson += [ for j in datajson['content']['positionresult']['result']]

total_count -= 15

pn += 1

time.sleep(20)

csv_header = ['positionname', 'salary', 'workyear', 'education', 'city', 'industryfield', 'companyshortname', 'financestage']

with open('job.csv','w') as f:

f_csv = csv.dictwriter(f, csv_header)

f_csv.writeheader()

f_csv.writerows(jobjson)

if __name__ == '__main__':

main()

ajax動態載入的,直接開啟除錯工具看xhr即可。

初級爬蟲 爬取拉勾網職位資訊

主要用到的庫 requests 1.原始url位址,我們檢視網頁源 發現裡面並沒有我們想要的職位資訊,這是因為拉勾網有反爬蟲機制,它的職位資訊是通過ajax動態載入的。2.我們按下f12,找到network 在左側name中找到 positionajax.json?needaddtionalresu...

scrapy爬蟲之爬取拉勾網職位資訊

import scrapy class lagouitem scrapy.item define the fields for your item here like name scrapy.field positionid scrapy.field 職位id,作為辨識字段插入資料庫 city sc...

python爬蟲 兩個簡單的小例子

import requests url value input search headers param response requests.get url url,params param,headers headers response.encoding utf 8 亂碼 page conten...