python 如何獲取頁面所有a標籤下href的值

2022-09-25 19:24:10 字數 2226 閱讀 3547

# -*nofcmboq- coding:utf-8 -*-

#python 2.7

##標籤操作

from bs4 import beautifulsoup

import urllib.request

import re

#如果是**,可以用這個辦法來讀取網頁

#html_doc = ""

#req = urllib.request.request(html_doc)

#w程式設計客棧ebpage = urllib.request.urlopen(req)

#html = webpage.read()

html="""

the dormouse's story

the dormouse's story

nofcmboqss="story">once upon a time there were three little sisters; and their names were

,lacie and

tillie;

lacie

and they lived at程式設計客棧 the bottom of a well.

..."""

soup = beautifulsoup(html, 'html.parser') #文件物件

#查詢a標籤,只會查詢出乙個a標籤

#print(soup.a)#

for k in soup.find_all('a'):

print(k)

print(k['class'])#查a標籤的class屬性

print(k['id'])#查a標籤的id值

print(k['href'])#查a標籤的href值

print(k.string)#查a標籤的string

如果,標籤中含有其他標籤,比如..,此nofcmboq時要提取中的資料,需要用k.get_text()

soup = beautifulsoup(html, 'html.parser') #文件物件

#查詢a標籤,只會查詢出乙個a標籤

for k in soup.find_all('a'):

print(k)

print(k['class'])#查a標籤的class屬性

print(k['id'])#查a標籤的id值

print(k['href'])#查a標籤的href值

print(k.string)#查a標籤的string

如果,標籤中含有其他標籤,比如..,此時要提取中的資料,需要用k.get_text()

通常我們使用下面這種模式也是能夠處理的,下面的方法使用了get()。

html = urlopen(url)

soup = beautifulsoup(html, 'html.parser')

t1 = soup.find_all('a')

print t1

href_list =

for t2 in t1:

t3 = t2.get('href')

href_list.append(t3)

補充:python爬蟲獲取任意頁面的標籤和屬性(包括獲取a標籤的href屬性)

# coding=utf-8

from bs4 import beautifulsoup

import requests

# 定義乙個獲取url頁面下label標籤的attr屬性的函式

def gethtml(url, label, attr):

response = requests.get(url)

response.encoding = 'utf-8'

html = response.text

soup = beautifulsoup(html, 'html.parser');

for target in soup.find_all(label):

try:

value = target.get(attr)

except:

value = ''

if value:

print(value)

url = ''

label = 'a'

attr = 'href'

gethtml(url, label, attr)

本文標題: python 如何獲取頁面所有a標籤下href的值

本文位址:

python獲取頁面所有a標籤下href的值

coding utf 8 python 2.7 標籤操作 from bs4 import beautifulsoup import urllib.request import re 如果是 可以用這個辦法來讀取網頁 html doc req urllib.request.request html d...

獲得頁面獲取所有控制項

本例以獲取web窗體上所有的textbox為例加以說明 foreach control c in page.controls 採用上述方法不能獲得所有控制項,它只能獲得頁面上一級控制項,如果某個控制項還有子控制項,將不能獲得。可以採用下述方法 1 static arraylist al null 存...

Python獲取當前頁面內的所有鏈結的五種方法

本文講述了 python 獲取當前頁面內的所有鏈結的五種方法,分享給大家僅供參考,具體如下 利用 requests html from requests html import htmlsession session htmlsession url r session.get url print r...