課時09 第二節課程解析網頁中的元素

find-all

from bs4 import beautifulsoup
data=
path = r'd:\baiduyundownload\python實戰：：四周實現爬蟲系統\課程資料\課程原始碼及作業參***\week1\1_2\1_2code_of_video\web\new_index.html'
with open(path, 'r') as f:
soup = beautifulsoup(f.read(), 'lxml')#解析網頁
titles = soup.select('body > div.main-content > ul > li > div.article-info > h3 > a')#從解析好的網頁中選擇元素，以列表形式返回
images = soup.select('body > div.main-content > ul > li > img')
descs = soup.select('body > div.main-content > ul > li > div.article-info > p.description')
cates = soup.select('body > div.main-content > ul > li > div.article-info > p.meta-info')
rates = soup.select('body > div.main-content > ul > li > div.rate > span')
for title, image, desc, cate, rate in zip(titles, images, descs, cates, rates):#遍歷列表
info = 
for i in data:
if float(i['rate']) >= 4:
print(i['title'], i['rate'])

path = './1_2_homework_required/index.html' #這裡使用了相對路徑,只要你本地有這個檔案就能開啟

with open(path, 'r') as wb_data: # 使用with open開啟本地檔案

soup = beautifulsoup(wb_data, 'lxml') # 解析網頁內容

# print(wb_data)

titles = soup.select('body > div > div > div.col-md-9 > div > div > div > div.caption > h4 > a') # 複製每個元素的css selector 路徑即可

images = soup.select('body > div > div > div.col-md-9 > div > div > div > img')

reviews = soup.select('body > div > div > div.col-md-9 > div > div > div > div.ratings > p.pull-right')

prices = soup.select('body > div > div > div.col-md-9 > div > div > div > div.caption > h4.pull-right')

stars = soup.select('body > div > div > div.col-md-9 > div > div > div > div.ratings > p:nth-of-type(2)')

# 為了從父節點開始取,此處保留:nth-of-type(2),觀察網頁,多取幾個星星的selector,就發現規律了

#body > div:nth-child(2) > div > div.col-md-9 > div:nth-child(2) > div:nth-child(1) > div > div.ratings > p:nth-child(2) > span:nth-child(2)，> span:nth-child(2)字段去掉，這個nth-child換成nth-of-type(2)

# print(titles,images,rates,prices,stars,sep='\n--------\n') # 列印每個元素,其中sep='\n--------\n'是為了在不同元素之間新增分割線

for title, image, review, price, star in zip(titles, images, reviews, prices, stars): # 使用for迴圈,把每個元素裝到字典中

data =

print(data)

import string

with open(r'd:\baiduyundownload\python實戰：：四周實現爬蟲系統\課程資料\課程原始碼及作業參***\week1\1_2\1_2answer_of_homework\1_2_homework_required\index.html', 'r') as web_data:

soup = beautifulsoup(web_data, 'lxml')

titles = soup.select(

'body > div > div > div.col-md-9 > div > div > div > div.caption > h4 > a ')

images = soup.select(

'body > div > div > div.col-md-9 > div > div > div > img')

reviews = soup.select(

'body > div > div > div.col-md-9 > div > div > div > div.ratings > p.pull-right')

prices = soup.select(

'body > div > div > div.col-md-9 > div > div > div > div.caption > h4.pull-right')

grades_crawler = soup.select(

'body > div > div > div.col-md-9 > div > div > div > div.ratings > p:nth-of-type(2) > span ')

# 上一行抓取所有的星星描述

grades = # 設定乙個空列表

while len(grades_crawler) != 0: # 迴圈條件長度不為0

e = grades_crawler[0:5] # 提取星星描述前五個元素，也就是乙個商品的星級

grades.insert(1, e) # 把這五個商品星級的列表作為乙個元素插入grades列表中

del grades_crawler[0:5] # 刪除抓取到的描述列表的前五位

for title, image, review, price, grade in zip(titles, images, reviews, prices, grades):

star =

b = str(grade) # 字串化列表

c = b.replace('class="glyphicon glyphicon-star">', '★') # 將描述實五角星的替換為圖案

d = c.replace('class="glyphicon glyphicon-star-empty">', '☆') # 將描述虛五角星的替換為圖案

data =

print(data)

課時09 第二節課程解析網頁中的元素

我的第二節課

第二節熱機的效率

第二節在Xocde中跑起OpenCV

課時09 第二節課程 解析網頁中的元素

我的第二節課

第二節 熱機的效率

第二節 在Xocde中跑起OpenCV

相關推薦

課時09 第二節課程解析網頁中的元素

第二節熱機的效率

第二節在Xocde中跑起OpenCV