拉鉤JSON資料爬取

2021-09-25 11:51:08 字數 1246 閱讀 5881

訪問url位址檢視網頁源**發現職位資訊為動態載入通過開發者工具檢視xhr請求,發現json資料位址為,將位址複製到瀏覽器,出現您操作太頻繁,請稍後訪問之類的資料,無法檢視完整資料向web中的位址傳送請求,獲取cookiessession資訊使用post方式將之前獲取的cookiessessionheaders作為引數,重新向真實的json資料位址傳送請求獲取到json資料通過json.loads()json資料裝換成python欄位的資料型別,方便解析

具體**如下:

import requests

import time

defmain

(pages)

:# 通過訪問主網頁獲取cookies和session

url1 =

''# 提交ajax請求,獲取json資料

url =

""# 請求頭

headers =

# 使用data來決定獲取多少頁的json資料

for page in

range(1

, pages)

: data =

s = requests.session(

)# 建立session

s.get(url=url1, headers=headers, timeout=3)

cookie = s.cookies # 獲取cookie

respon = s.post(url=url, headers=headers, data=data, cookies=cookie, timeout=3)

time.sleep(4)

print

(respon.text)

# 獲取前兩頁的職位json資訊

main(3)

# 結果如下:

# ,"code":0}

爬蟲(5) 爬取拉鉤網資料

importjson importurllib fromurllibimportparse,request importmath 請求頭 headers 獲得相關網頁數方法 defgetpagenum kw url 路由 沒有輸查詢關鍵字的路由 url form data data url編碼 da...

python丨Selenium爬取拉鉤職位資訊

第一頁職位資訊 from selenium import webdriver from lxml import etree import re import time class lagouspider object def init self self.driver webdriver.chrom...

爬取拉鉤網上所有的python職位

2.爬取拉鉤網上的所有python職位。from urllib import request,parse import json,random defuser agent page 瀏覽器列表,每次訪問可以用不同的瀏覽器訪問 user agent list mozilla 5.0 x11 ubunt...