Python 網路爬蟲權威指南 2 2 3 導航樹

2021-10-13 21:16:45 字數 1415 閱讀 6718

處理子標籤和其他後代標籤

# beautifulsoup 函式總是處理當前標籤的後代標籤

from urllib.request import urlopen

from bs4 import beautifulsoup

html = urlopen(

'')bs = beautifulsoup(html,

'html.parser'

)# .descendants() 後代標籤函式,.children() 子代標籤函式

for child in bs.find(

'table',)

.children:

print

(child)

處理兄弟標籤

from urllib.request import urlopen

from bs4 import beautifulsoup

html = urlopen(

'')bs = beautifulsoup(html,

'html.parser'

)# 第乙個標題行未選擇

# next_siblings() 函式只呼叫tr後面的兄弟標籤

for sibling in bs.find(

'table',)

.tr.next_siblings:

print

(sibling)

處理父標籤

from urllib.request import urlopen

from bs4 import beautifulsoup

html = urlopen(

'')bs = beautifulsoup(html,

'html.parser'

)print

(bs.find(

'img',)

.parent.previous_sibling.get_text(

))

選擇具體的標籤

獲取**第一行

from urllib.request import urlopen

from bs4 import beautifulsoup

html = urlopen(

'')bs = beautifulsoup(html,

'html.parser'

)for sibling in bs.find(

'table',)

.tr:

print

(sibling)

Python 網路爬蟲 2

1 urlopen 方法中有乙個可選引數timeout,用於設定連線的超時時間,單位秒 2 如何從urlopen 的返回物件中獲取http狀態碼 resp urllib.request.urlopen url code response.getcode 3 在客戶端和伺服器之間進行請求 響應時,常用...

《css權威指南》筆記2

屬性選擇器在為不帶有 class 或 id 的表單設定樣式時特別有用 如,input type text foo bar 選取帶有以指定值bar開頭的屬性值的元素,該值必須是整個單詞bar 或 bar foo bar 選擇foo屬性以bar開頭的所有元素 foo bar 選擇foo屬性以bar結尾的...

爬蟲 2初學Python網路爬蟲

2 網路爬蟲的限制 3 robotst協議 4 robots協議的遵守方式 web伺服器預設接收人類訪問,受限於編寫水平和目的,網路爬蟲將會為web伺服器帶來巨大的資源開銷 伺服器上的資料有產權歸屬,網路爬蟲獲取資料後牟利將帶來法律風險 網路爬蟲可能具備突破簡單訪問控制的能力,獲得被保護資料 從而洩...