python獲取頁面所有a標籤下href的值

2021-08-30 17:27:54 字數 1477 閱讀 3803

# -*- coding:utf-8 -*-

#python 2.7

##標籤操作

from bs4 import beautifulsoup

import urllib.request

import re

#如果是**,可以用這個辦法來讀取網頁

#html_doc = ""

#req = urllib.request.request(html_doc)

#webpage = urllib.request.urlopen(req)

#html = webpage.read()

html="""

the dormouse's story

once upon a time there were three little sisters; and their names were

,lacie and

tillie;

lacie

and they lived at the bottom of a well.

..."""

soup = beautifulsoup(html, 'html.parser') #文件物件

#查詢a標籤,只會查詢出乙個a標籤

#print(soup.a)#

for k in soup.find_all('a'):

print(k)

print(k['class'])#查a標籤的class屬性

print(k['id'])#查a標籤的id值

print(k['href'])#查a標籤的href值

print(k.string)#查a標籤的string

如果,標籤中含有其他標籤,比如..,此時要提取中的資料,需要用k.get_text()

soup = beautifulsoup(html, 'html.parser')   #文件物件

#查詢a標籤,只會查詢出乙個a標籤

for k in soup.find_all('a'):

print(k)

print(k['class'])#查a標籤的class屬性

print(k['id'])#查a標籤的id值

print(k['href'])#查a標籤的href值

print(k.string)#查a標籤的string

如果,標籤中含有其他標籤,比如..,此時要提取中的資料,需要用k.get_text()

通常我們使用下面這種模式也是能夠處理的,下面的方法使用了get()。

html = urlopen(url)

soup = beautifulsoup(html, 'html.parser')

t1 = soup.find_all('a')

print t1

href_list =

for t2 in t1:

t3 = t2.get('href')

python 如何獲取頁面所有a標籤下href的值

nofcmboq coding utf 8 python 2.7 標籤操作 from bs4 import beautifulsoup import urllib.request import re 如果是 可以用這個辦法來讀取網頁 html doc req urllib.request.reque...

獲得頁面獲取所有控制項

本例以獲取web窗體上所有的textbox為例加以說明 foreach control c in page.controls 採用上述方法不能獲得所有控制項,它只能獲得頁面上一級控制項,如果某個控制項還有子控制項,將不能獲得。可以採用下述方法 1 static arraylist al null 存...

python 搜尋頁面標籤

import urllib2 from sgmllib import sgmlparser class listname sgmlparser def init self sgmlparser.init self self.is h4 self.name def start h4 self,attr...