Python爬蟲實戰演練之採集拉鉤網招聘資訊資料

2022-09-24 23:18:13 字數 1409 閱讀 4389

目錄

pycharm 是編輯器 >> 用來寫**的 (更方便寫**, 寫**更加舒適)

python 是直譯器 >>> 執行解釋python**的

程式設計客棧

win + r 輸入cmd,回車輸入安裝命令pip install 模組名。

如果出現爆紅,可能是因為,網路連線超時,切換國內映象源

import requests # 資料請求模組 第三方模組 pip install r程式設計客棧equests

import pprint # 格式化輸出模組

import csv # csv儲存資料

import time

url = ''

# headers 請求頭 用來偽裝python**, 防止被識別出是爬蟲程式, 然後被反爬

# user-agent: 瀏覽器的基本標識

headers =

data =

# response 自定義變數 可以自己定義

response = requests.post(url=url, data=data, headers=headers)

獲取伺服器給我們響應資料

json資料最好解析 非常好解析, 就根據字典鍵值對取值

result = response.json()['content']['positionresult']['result']

# 迴圈遍歷 從 result 列表裡面 把元素乙個乙個提取出來

for index in result:

# pprint.pprint(index)

# href = index['positionid']

href = f'ht'

dit =

# ''.join() 把列表轉成字串 '免費班車',

csv_writer.writerow(dit)

print(dit)

for page in range(1, 31):

print(f'------------------------正在爬取第頁-------------------------')

time.sleep(1)

f = open('招聘資料.csv', mode='a', encoding='utf-8', newline='')

csv_writer = csv.dictwriter(f, fieldnames=[

'標題',

'地區',

'公司名字',

'薪資',

'學歷',

'經驗',

'公司標籤',

'詳情頁',

])csv_writer.writeheader() # 寫入表頭

【付費vip完整版】只要看了就能學會的教程,80集python基礎入門**教學

點這裡即可免費****

Python爬蟲實戰演練之採集糗事百科段子資料

目錄 1.爬蟲基本步驟 2.requests模組 3.parsel模組 4.xpath資料解析方法 程式設計客棧5.分頁功能 1.獲取網頁位址 糗事百科的段子的位址 2.傳送請求 3.資料解析 4wxrbqgc.儲存 本地 import re import requests import parse...

python爬蟲之xpath資料採集

使用方式有兩種 1.最基本的lxml解析方式 from lxml import etree doc etree.parse exsample.html 2.另一種 from lxml import html text requests.get url text ht html.fromstring ...

Jsoup簡單爬蟲實戰演練 解析URL

雖然爬取的都是一些特別簡單的資料。但是,為了避免出現什麼經濟糾紛,本人還是選擇以爬取自己的部落格為例來進行資料的爬取。由於本人也是剛開始學習jsoup,如果有什麼不應該出現的問題,歡迎各位批評指正。本人的部落格主頁 按f12鍵檢查 如何爬取網頁中的title標籤內容 爬取meta標籤中,conten...