將爬取到的資料存入資料框並匯出

2022-09-11 22:09:31 字數 1764 閱讀 3630

import requests

from lxml import etree

from pandas import dataframe

url=''

res=requests.get(url)

res.encoding='gbk'

print(res)

#用etree生成xpath解析物件

root=etree.html(res.text)

print(root)

#利用xpath提取資訊

position=root.xpath('//p[@class="t1 "]/span/a/@title')

extract=root.xpath('//p[@class="t1 "]/span/a/text()')

extract=[extract[i].strip() for i in range(len(extract))]

company=root.xpath('//span[@class="t2"]/a/@title')

place=root.xpath('//div[@class="el"]/span[@class="t3"]/text()')  #同一標籤下的多屬性時並列div[@class="el"][@id="22"]

salary=root.xpath('//div[@class="el"]/span[@class="t4"]/text()')

jobinfo=dataframe([position,company,place,salary]).t

jobinfo.columns=['職位','公司','地點','薪資']

jobinfo.to_csv('51jbob.csv',encoding='gbk')

#利用正則匹配     正規表示式中的模式修飾符及應用

#i忽略大小寫    s 讓 . 匹配換行符   m多行匹配

import re

import requests

from pandas import dataframe

import pandas as pd

jobinfoall=dataframe()

for i in range(1,6):

url=''

res=requests.get(url)

res.encoding='gbk'

# 職位

pat=''

position=re.findall(pat,res.text)

# 公司

company_pat='.*

'company=re.findall(company_pat,res.text)

# 地點

place_pat='.*?(.*?)'

place=re.findall(place_pat,res.text,re.s)

# 薪資

salary_pat='.*?(.*?)'

salary=re.findall(salary_pat,res.text,re.s)

jobinfo=dataframe([position,company,place,salary]).t

jobinfo.columns=['職位','公司','地點','薪資']

jobinfoall=pd.concat([jobinfoall,jobinfo]) #把兩個合成乙個

# print(jobinfo)

jobinfoall.to_csv('51jbob1.csv',encoding='gbk')

# len(jobinfoall)

Python爬蟲 將爬取的資料存入excle

本性專案從淘車網爬取資料並將爬下來的資料生成excle 安裝 lxml和xlsxwriter庫的時候飄紅,從terminal和python interpreter安裝都不行,最後試了試cmd 好像是先從cmd用清華映象裝,再從python interpreter裝,剛開始python interpr...

Python爬取微博熱搜榜,將資料存入資料庫

這裡是用來爬取微博熱搜榜的資料,網頁位址為開啟網頁並按下f12進入開發者模式,找到.裡的內容,如圖所示 href後面的內容即為對應的中文編碼的原始碼,其中很多25應該是干擾字元,後面刪掉解析就可以發現是微博熱搜的標題。我數了下,一共有27個,剛好第乙個標題為 比伯願為賽琳娜捐腎 九個字,乙個漢字佔三...

前端獲取到的時間存入資料庫

問題 例項 在確定值班日期的同時,將開始和結束時間存入資料庫,資料庫中開始時間和結束時間的字段型別是datetime,所以採用拼接的形式,將獲取到的值班日期與時間拼接後存入資料庫。彈框部分的 class form group 值班日期label disabled disabled name ddat...