利用BeautifulSoup網頁抓去資料

2021-06-28 11:27:53 字數 1232 閱讀 6425

import requests

from bs4 import beautifulsoup

r = requests.get("")

soup = beautifulsoup(r.text, "html5lib")

#body = soup.find("body")

data = soup.find(id="cpdata")

print type(data)

for i in data.find_all(align="center"):

print type(i)

if type(i) == type(data):

m = i.find_all("td",class_="chartball02")

print type(m)#這就開始錯了 型別不對

#不能依靠<>去指示位置,只能靠撒網

blue = data.find_all("td",class_="chartball02")

red = data.find_all("td",class_="chartball01")

print type(blue)

import re

#有時候如果搜尋條件過為複雜需要引入正規表示式

#ball = data.find_all(re.complie("chartball0."))#你永遠的不到想要的結構,因為這是屬性裡的資料,預設是<>

ball = data.find_all(class_=re.compile("chartball0."))

最近感覺學了半天python沒寫點啥挺對不起自己的,如是融匯了自己所學所長,學了一段網頁抓去資料並做資料分析,結果........
我被beautifulsoup搞崩潰了,這個爛貨居然在我find_all時候返回resultset物件

,居然給我報錯,我左右研究了一下,只有soup物件才能用find_all剩下的如果想要就得遍歷list,一點都不美麗,罔我還去分析樹結構

beautifulsoup 的使用類似於一種對網頁資料的分析原則,有時候由於標籤並不全,很難一次性搞定所需要的,在這種情況下,複選以及特定條件的條件才行。

-->

-->

-->

-->

-->

-->2014065

-->03

但是仔細想想也許越是趨近自然語言,越是這樣吧,暫時說這些,等寫完了再整理

利用beautiful soup爬取歷史天氣資料

利用beautiful soup爬取歷史天氣資料 本文將會涉及requests.get 返回結果為404時,採用模擬瀏覽器訪問的模式。以及當遇到幾個相同的標籤時的處理辦法。由於本人還是個小白,故可能有不好的地方 參考了 以及 文章爬取的 為 如下 目標 爬取2019年香洲的天氣資料,包括最高氣溫,最...

BeautifulSoup常用方法

1.初始化 2.查詢指定標籤 eg 要找到符合的所有標籤 p.findall div 反覆利用標籤特徵可以找到最終需要的標籤 3.直接加標籤名可以找到所有子標籤 eg 找到所有標籤 p.td 4.直接以字典形式,可以訪問標籤內對應屬性的值 eg 要找到 中href 的值 www.csdn.net p...

BeautifulSoup學習筆記

prettify 將html 格式化 get text 獲得所有文字內容 contens 返回所有子節點 children 返回子節點生成器 descendants 返回所有子孫節點的生成器 strings 返回包含的多個字串的生成器 stripped strings 返回包含的多個字串 去除多餘空...