python3爬蟲資料解析實戰

2021-08-05 20:23:57 字數 1121 閱讀 4200

如圖所示,我想獲取中畫紅框的src路徑

這裡我們用urlib請求下來資料,然後用beautifulsoup解析資料

#python3

from bs4 import beautifulsoup

import urllib.request

url=''

response=urllib.request.urlopen(url)

#取右側的一周熱門排行的第一張

html=response.read()

#首先分析 是在body標籤下的 class=main-right的div下

#再乙個class為wenzi_add的div的列表ul li

# print(html)

#接下來用beautifulsoup解析html資料

html=html.decode('utf-8')#python3

soup=beautifulsoup(html,'html.parser')

div=soup.select('div[class=main-right]')

div1=div[0]

div2=div1.select('div[class=wenzi_add]')

div3=div2[0]

ul=div3.select('ul')

ul1=ul[0]

a=ul1.select('a')

a1=a[0]

img=a1.select('img')

#將img物件轉成list img[0] 然後獲取其中的src屬性img[0]['src']

src=img[0]['src']

print(src)

# 獲取url下的所有li標籤中的url

list=

for listr in ul1:

a=ul1.select('li')

a1=a[0]

img=a1.select('img')

src=img[0]['src']

print(list)

python3爬蟲實戰(3)

今天心血來潮去爬取了一下招聘 的實時招聘資訊。是 選的條件是北京,實習生,計算機軟體。分析 之後發現還是很容易的,不過過程中出了不少小問題,在這裡分享一下。想要爬取的是類似的表單內容。是在ul的li裡。用beautifulsoup解析之後,tem ul bsoj.find ul 存下整個ul元素。對...

Python網路爬蟲實戰 二 資料解析

根據爬取下來的資料,我們需要寫不同的解析方式,最常見的一般都是html資料,也就是網頁的原始碼,還有一些可能是json資料,json資料是一種輕量級的資料交換格式,相對來說容易解析,它的格式如下。但是對於爬取下來是乙個html資料,其中標籤結構可能十分複雜,而且不同html的結構可能存在差異,所以解...

python3 解析json資料

python中json的序列化,反序列化分別對應encoding,decoding encoding 把乙個python物件編碼轉換為json串 decoding 把json串轉碼成python物件 json字串 import json test str1 json.dumps test,sort ...