python爬蟲爬取騰訊網招聘資訊

2021-10-23 17:17:59 字數 2795 閱讀 4053

話不多說,直接上**!

from bs4 import beautifulsoup

import urllib2

import json # 使用了json格式儲存

deftengxun

(detail,num)

: url =

''# detail = 'position.php?&start=0#a'

request = urllib2.request(url + detail)

response =urllib2.urlopen(request)

reshtml = response.read(

) soup = beautifulsoup(reshtml,

'html.parser'

, from_encoding=

'utf-8'

) result = soup.select(

".even"

) result += soup.select(

".odd"

)# print len(result)

# 處理頁面

items =

for node in result:

item =

# 職位名

zname = node.select(

'td')[

0].get_text(

)# 職位類別

ztype = node.select(

'td')[

1].get_text(

)# 人數

znum = node.select(

'td')[

2].get_text(

)# 地點

zlocal = node.select(

'td')[

3].get_text(

)# 發布時間

ztime = node.select(

'td')[

4].get_text(

)# 鏈結

detaillink = node.select(

'td a')[

0].attrs[

'href'

]# 獲取工作職責、工作要求

request1 = urllib2.request(url + detaillink)

response1 = urllib2.urlopen(request1)

jobhtml = response1.read(

) soup1 = beautifulsoup(jobhtml,

'html.parser'

, from_encoding=

'utf-8'

)# print len(soup1.select('ul.squareli'))

# 工作職責

jobres =

''for li in soup1.select(

'ul.squareli')[

0].select(

'li'):

jobres += li.get_text()+

'\n'

# 工作要求

jobreq =

''for li in soup1.select(

'ul.squareli')[

1].select(

'li'):

jobreq += li.get_text()+

'\n'

# print jobreq

# 將資料存入item中

item[

'zname'

]=zname;

item[

'detaillink'

]= detaillink;

item[

'ztype'

]=ztype

item[

'znum'

]= znum

item[

'zlocal'

]= zlocal

item[

'ztime'

]= ztime

item[

'jobres'

]= jobres

item[

'jobreq'

]= jobreq

# 處理工作職責和工作要求

origin =

print

(len

(items)

)# 以json格式輸出到檔案中

# 禁用ascii編碼,按utf-8編碼

output =

open

('tencent.json'

+str

(num)

,'w'

)for i in origin:

line = json.dumps(items, ensure_ascii=

false);

# print line

output.write(line.encode(

'utf-8'))

output.close(

)for i in

range

(303):

print

("進行到第"

+str

(i)+

"頁")

url =

'position.php?&start='

+str

(i *10)

+'#a'

tengxun(url, i)

python爬蟲爬取騰訊招聘資訊 (靜態爬蟲)

環境 windows7,python3.4 親測可正常執行 1 import requests 2from bs4 import beautifulsoup 3from math import ceil 45 header 78 9 獲取崗位頁數 10def getjobpage url 11 re...

python爬蟲 爬取51job網招聘資訊

專案概覽 在搜尋頁中,所有符合條件的職位資訊以列表的形式排序設有分頁顯示。每條職位資訊是乙個url 位址,通過url 位址可以進入該職位的詳情頁。職位詳情頁也是資料爬取的頁面,爬取的資料資訊有 職位名稱 企業名稱 待遇 福利以及職位要求等等。專案框架 具體步驟 一 獲取城市編號def get cit...

Python爬取拉勾網招聘資訊

最近自學研究爬蟲,特找個地方記錄一下 就來到了51cto先測試一下。第一次發帖不太會。先貼個 首先開啟拉勾網首頁,然後在搜尋框輸入關鍵字python。開啟抓包工具。因為我的是mac os,所以用的自帶的safari瀏覽器的開啟時間線錄製。通過抓取post方法,可以看到完整url 然後可以發現post...