初級爬蟲 爬取拉勾網職位資訊

2022-06-23 07:24:08 字數 861 閱讀 4800

主要用到的庫:requests

1.原始url位址,我們檢視網頁源**,發現裡面並沒有我們想要的職位資訊,這是因為拉勾網有反爬蟲機制,它的職位資訊是通過ajax動態載入的。

2.我們按下f12,找到network--在左側name中找到:positionajax.json?needaddtionalresult=false--,在右側找到response。

我們將顯示的json格式的內容放在進行格式化:

發現這正是我們想要的職位資訊。

3.簡單爬蟲的構建

import

requests

#實際要爬取的url

url = '

'payload =

header =

#原始的url

urls ='

'#建立session

s =requests.session()

#獲取搜尋頁的cookies

s.get(urls, headers=header, timeout=3)

#為此次獲取的cookies

cookie =s.cookies

#獲取此次文字

response = s.post(url, data=payload, headers=header, cookies=cookie, timeout=5).text

print(response)

部分輸出如下:

scrapy爬蟲之爬取拉勾網職位資訊

import scrapy class lagouitem scrapy.item define the fields for your item here like name scrapy.field positionid scrapy.field 職位id,作為辨識字段插入資料庫 city sc...

爬取拉勾網職位資訊並存為json檔案

from bs4 import beautifulsoup import requests import re import pymongo import json client pymongo.mongoclient localhost 27017 lagou client lagou sheet...

拉勾網職位資料爬取 按公司規模爬取

全部的 見我的github 這裡改進了一下之前文章 拉勾網職位資料爬取,由於拉勾網最多隻會顯示30頁的職位資訊,為了獲取更多的職位資訊,就要分類爬取。由於北京的python職位很多,超過了30頁的部分就不顯示了,我為了能夠比較全的爬取資料,就進行了分類爬取。這裡我選擇公司規模這個類別 小於15人 1...