記一次拉鉤網爬蟲

2021-10-06 04:08:19 字數 1827 閱讀 5423

#coding:utf-8

import requests

import csv

import time

# 爬取鏈結

url = ''

# 頭部資訊

headers =

#頁碼

form_data =

# 建立會話獲取cookie 並且cookie要用在該會話中

s = requests.session()

url_list = ''

s.get(url_list,headers=headers)

cookie = s.cookies

# 傳入引數 頁碼

# 輸出 該頁爬取到的資料

def get(page):

form_data['pn'] = page

response = s.post(url,headers=headers,cookies=cookie,data=form_data,timeout=3)

job_list = response.json()

job_result = job_list["content"]['positionresult']

csv_data =

for k in range(0,job_result['resultsize']):

job_info =

i = job_result['result'][k]

#資料儲存到csv檔案中

csvfile = open('軟體職業.csv', 'a+',encoding='utf-8-sig',newline='')

writer = csv.writer(csvfile)

writer.writerows(csv_data)

csvfile.close()

return csv_data

if __name__ == '__main__':

a = [('職位','公司','薪資','學歷','位置','工作經驗要求','福利待遇')]

csvfile = open('軟體職業.csv', 'a+',encoding='utf-8-sig',newline='')

writer = csv.writer(csvfile)

writer.writerows(a)

csvfile.close()

all_compay =

# 爬取30頁

for page_num in range(1, 31):

result = get(page=page_num)

all_compay += result

print('已抓取{}頁, 總職位數:{}'.format(page_num, len(all_compay)))

time.sleep(20) #爬蟲請求頻率太高容易被封ip

爬蟲要點:

1、找請求:

2、找請求中的重要資訊

你做到這一步會發現在postman模擬請求失敗,顯示超時

這是什麼情況呢?

因為這個拉勾網做的是session請求,所以他的cookie需要對應他的會話session。

所以需要自己建立session會話去獲取cookie!!!

參考:爬取拉勾網職業資訊

記第一次爬蟲

出不來結果的時候,真是著急,期間犯了很多錯誤,這個過程痛苦並快樂著 哈哈哈哈哈,哈哈哈哈哈 import urllib.request import re import os url page urllib.request.urlopen url read page page.decode gbk ...

記第一次爬蟲

在學習爬蟲的過程中,我首先進行的是對豆瓣top250的爬取,步驟可分為如下幾步 第一步 抓包 url 第二步 請求url 第三步 解析,提取出我需要的資訊 第四步 存入檔案 首先我對豆瓣的網頁進行了分析,開啟要抓取的網頁,f12 f5,這樣你就可以看到網頁原始碼了,進入到network,找到要抓取的...

記一次Python爬蟲入門

程式思路 程式步驟 2 分析該網頁的 3 findall查詢出所有的url,儲存到list中 4 遍歷list,儲存到本地 程式原始碼 請求網頁 import time import requests import re import os 請求頭部 headers response request...