資料分析崗位職責爬取 詞頻

2021-09-27 02:19:21 字數 2975 閱讀 9687

直接放**惹,**是智聯招聘的,當前搜尋條件是資料分析,可更換搜尋條件之後更改url字首。

# 市場崗

# 資料分析崗

# -*- coding:utf-8 -*-

import urllib.request

import urllib.parse

import re

#讀url

defget_content

(page)

: url =

''+str

(page)

+'_0'

a = urllib.request.urlopen(url)

html = a.read(

).decode(

'utf-8'

)return html

#找欄位

defget

(html)

: reg = re.

compile

(r'(.*?)

.*?class="otips otips4 fl">(.*?).*?span class="searchresultkeyval">.*?職位類別:(.*?)

.*?class="fl __ga__fullresultcampuspostname_clicksfullresultcampuspostnames_001">(.*?).*?class="searchresultjobdescription">.*?職責描述:(.*?)'

,re.s)

items = re.findall(reg,html)

items_length =

len(items)

return items,items_length

#爬取資訊

items_all=

items_length_all=

0#30是爬取頁數

for i in

range(0

,30):

items,items_length = get(get_content(i)

) items_all+=items

items_length_all=items_length+items_length_all

print

(i)import pandas as pd

items_all=pd.dataframe(items_all)

.drop_duplicates(

)items_all.columns=

["企業"

,"型別"

,"職位型別"

,"職位"

,"職責"

]#匯出

#items_all.to_excel("d:/marketing.xls")

#詞頻統計

import jieba

import matplotlib.pyplot as plt

from wordcloud import wordcloud,imagecolorgenerator,stopwords

import numpy as np

from pil import image

test_file=

""for i in items_all.index:

test_file+=

str(items_all[

"職責"])

str_quan2=jieba.cut(test_file,cut_all=

true

)#print("$".join(str_quan2))

import jieba.analyse as anl

#詞頻統計:得出最為關鍵的前1000個詞,及相應的逆文件頻率

seg = anl.extract_tags(test_file, topk =

1000

, withweight =

true

)dflist=pd.dataframe(seg)

dflist.columns=

["word"

,"freq"

]wordlist = jieba.cut(test_file,cut_all=

true

)#切割

con=

for i in dflist.index:

len(items_all[items_all[

"職責"].

str.contains(dflist.loc[i]

["word"])

]))dflist[

"con"

]=con

dflist=dflist[dflist[

"con"

]>1]

#詞雲圖

「資料分析」崗位分析

行業內公司的融資情況從一定程度上說明了選擇資料分析崗位的穩定性 佔比情況是所有職位累加在一起,未區分職位 不需要融資的公司佔比60 d輪以上的公司42 其實很多不需要融資的公司,規模也是很大的,可以結合公司規模來判斷公司的情況如何,是否值得去發展。提供資料類職位的公司,規模還算比較大的 500人以上...

資料分析崗位面試必備

資料分析遵循一定的流程,不僅可以保證資料分析每乙個階段的工作內容有章可循,而且還可以讓分析最終的結果更加準確,更加有說服力。一般情況下,資料分析分為以下幾個步驟 包括特徵提取 特徵構建 特徵選擇。特徵工程的目的是篩選出更好的特徵,獲取更好的訓練資料。因為好的特徵具有更強的靈活性,可以用簡單的模型做訓...

資料分析與挖掘案列 拉勾網資料分析崗位分析

無論出於興趣或者職業發展,於是最近開始做各種大小專案實踐,以拉勾網資料分析招聘職位分析廣州求職競爭情況!tools chrome python 3.6 jupyter os mac osx 在拉勾網搜尋頁面輸入資料分析,並且定位為廣州,用f12開啟開發除錯工具,根據下圖示紅的地方檢視詳細資訊 在ge...