python爬蟲 1w 套個人簡歷模板爬取

2021-10-20 21:47:57 字數 2897 閱讀 9100

1.爬取的**為站長之家

2.爬取的時候可以適量少爬一點,夠用就行,小心律師函警告

3.**為博主原創,僅供學習參考,請勿用於商業用途!!!

4.**在迭代,我寫下這篇博文的時候是適用的,其他時間段未必

5.附上原**的說明

實在怕封ip的可以在網上買個**ip,畢竟爬的太多了

import requests  # 傳送請求

from lxml import etree # 資料解析

import time # 執行緒暫停,怕封ip

import os # 建立資料夾

# 由於目標**更新了反爬蟲機制,簡單的ua偽裝不能滿足我們的需求,所有對整個訊息頭進行了偽裝

headers =

# 如果該資料夾不存在,則建立資料夾

ifnot os.path.exists(

'./moban'):

os.mkdir(

'./moban'

)for i in

range(1

,701):

# 預計可爬700*20套簡歷模板

print

(f"正準備爬取第頁簡歷模板"

)print

("怕封ip,操作暫停中......"

)# 操作暫停提示語

time.sleep(15)

# 每獲取乙個列表頁暫停15s,乙個列表頁有20分簡歷模板的鏈結

url = f''

# 設定相應的路由i

try:

# 異常處理

response = requests.get(url=url, headers=headers)

# 獲取響應

except exception as e:

# 給異常取名為e

print

(e)# 列印異常名稱

print

('連線失敗,選擇跳過!!!'

)# 連不上就不要連了,頭鐵容易出事

print

("怕封ip,獲取列表頁操作暫停中......"

)# 操作暫停提示語

time.sleep(5)

# 每出現一次異常暫停5s

continue

# 跳過本次迴圈

response.encoding =

'utf-8'

# 中文編碼為utf-8

page = response.text # 獲取響應的文字資料

tree = etree.html(page)

# 用etree進行資料解析

a_list = tree.xpath(

"//div[@class='box col3 ws_block']/a"

)# 用xpath提取目標內容形成20份一起的列表

0]# 根據爬取的鏈結設定新的網頁

resume_name = a.xpath(

'./img/@alt')[

0]# 爬取名字,並對列表進行切片取第乙個

resume_name = resume_name.strip(

)# 去掉首尾的空格

try:

resume_response = requests.get(url=resume_href, headers=headers)

# 進入簡歷模板詳情頁面

except exception as e:

print

(e)print

('連線失敗,選擇跳過!!!'

)print

("怕封ip,獲取個人簡歷詳情頁操作暫停中......"

) time.sleep(5)

continue

resume_response.encoding =

'utf-8'

# 中文編碼為utf-8

resume_page = resume_response.text # 獲取響應的文字資料

resume_tree = etree.html(resume_page)

# 用etree進行資料解析

resume_link = resume_tree.xpath(

'//ul[@class="clearfix"]/li/a/@href')[

0]try:

download = requests.get(url=resume_link, headers=headers)

.content # 獲取二進位制資料

except exception as e:

print

(e)print

('連線失敗,選擇跳過!!!'

)print()

time.sleep(5)

continue

download_path =

'./moban/'

+ resume_name +

'.rar'

# 設定儲存路徑以及檔名稱

with

open

(download_path,

'wb'

)as fp:

# 設定檔案製作,以二進位制形式

fp.write(download)

# 儲存檔案

print

(resume_name,

)

造假資料1w條

coding utf 8 from faker import faker from custom.custom import myprovider import pandas as pd import pymysql class create data object def init self 選擇...

nginx單機1W併發優化

高併發思路 socket層面分析 nginx 1.子程序允許開啟的連線 worker connections 2.http連線快速關閉 keep alivetime 0 http請求完之後,馬上斷開連線 系統 1.最大連線數 somaxconn 2.加快tcp連線的 recycle 3.空的tcp是...

NFC正式支援無線充電!功率僅僅1W

nfc標準官方組織nfc論壇 nfc forum 今天官方宣布,新的 無線充電規範 wireless charging specification wlc 已經獲得批准,智慧型手機未來可以通過nfc直接進行無線充電了!無線充電 無線反充已經逐漸成為旗艦智慧型手機的標配,功率也越來越高,最高分別做到了...