Python網路爬蟲入門(四)

2021-09-19 12:58:58 字數 802 閱讀 4391

beautifulsoup庫

from bs4 import beautifulsoup

html=""" """

soup=beautifulsoup(html,'lxml')

#列印所有的tr標籤

trs=soup.find_all('tr')

for tr in trs:

print(tr)

#獲取第二個tr標籤

tr=soup.find_all('tr',limit=2)[1]#limit最多獲取幾個元素

print(tr)

#獲取所有class=even,id=test的標籤

trs=soup.find_all('tr',class_='even',id='test')#因為class是關鍵字,所以後面加乙個下劃線區分

for tr in trs:

print(tr)

#獲取所有a標籤的href屬性

alist=soup.find_all('a')

for a in alist:

href=a['href']或href=a.attrs['href']

print(href)

string:獲取某個標籤下的非標籤字串,返回是字串。如果這個標籤下有多行字元,那麼就不能獲取到了。

strings:獲取某個標籤下的子孫非標籤字串。

stripped_strings: 獲取某個標籤下的子孫非標籤字串。會去掉空白字元,返回來的生成器。

get_text: 獲取某個標籤下的子孫非標籤字串。以普通字串返回。

python網路爬蟲入門

from urllib import request fp request.urlopen content fp.read fp.close 這裡需要使用可以從html或者xml檔案中提取資料的python庫,beautiful soup 安裝該庫 pip3 install beautifulsou...

python網路爬蟲入門(二)

一 python爬取10頁250條資料中的所有 書單 模組案例方法一 encoding utf 8 import requests from bs4 import beautifulsoup i 25 while i 225 i i 25 c str i resp requests.get c so...

Python網路爬蟲入門介紹

我們最常見的就是post和get請求,學習完這兩個模組就可以爬去大部分網頁了。我們所有的高階爬蟲都是基於基本的請求傳送的,因此理解和熟練掌握這些基本的技能是尤為重要的。下面列舉常見的傳送請求的方式 利用requests和urllib傳送get請求 利用requests和urllib傳送post請求 ...