xpath作業 爬取站長素材中免費簡歷模板

2021-10-25 06:28:24 字數 1314 閱讀 5737

注:自己只是爬取了一頁的內容,沒有實現分頁功能,有興趣的小夥伴,可以試試

**均已成功實現

import requests

from lxml import etree

import os

if __name__ ==

"__main__"

: headers =

#建立乙個資料夾

ifnot os.path.exists(

'./resumelibs'):

# 如果不存在

os.mkdir(

'./resumelibs'

) url =

''page_text = requests.get(url=url,headers=headers)

.text

tree = etree.html(page_text)

div_list = tree.xpath(

'//div[@id="container"]/div'

)for div in div_list:

resume_src = div.xpath(

'./a/@href')[

0]resume_name = div.xpath(

'./a/img/@alt')[

0]+'.zip'

#對每個簡歷頁面發起請求

detail_text = requests.get(url=resume_src, headers=headers)

.text

tree1 = etree.html(detail_text)

download_src = tree1.xpath(

'//div[@class="clearfix mt20 downlist"]/ul/li[1]/a/@href')[

0]down_load_resume = requests.get(url=download_src, headers=headers)

.content

down_load_path =

'resumelibs/'

+ resume_name

with

open

( down_load_path,

'wb'

)as fp:

fp.write(down_load_resume)

print

(resume_name,

)

執行截圖

使用xpath解析站長素材 免費簡歷模板

關於使用什麼模組寫爬蟲做資料解析,並沒有刻板的規定,鑑於正在學習仍使用xpath 分析站長素材網的免費簡歷模板,需求分析不再贅述,且看編碼過程 usr bin env python encoding utf 8 file 解析站長素材 免費簡歷模板.py time 2020 2 29 14 30 i...

python 千庫網素材爬取

搞事情 千庫網聖誕素材抓取 僅一頁,其他自己迴圈 import requests requests請求模組 import re re正則匹配模組 import random 隨機數字模組 response requests.get 訪問千庫 後去響應 index response.text 獲取到響...

datawhale爬蟲(xpath爬取丁香網評論)

1.xpath基礎學習 前面我們介紹了 beautifulsoup 的用法,這個已經是非常強大的庫了,不過還有一些比較流行的解析庫,例如 lxml,使用的是 xpath 語法,同樣是效率比較高的解析方法。如果大家對 beautifulsoup 使用不太習慣的話,可以嘗試下 xpath。xpath 是...