Python3正則去掉HTML標籤

2022-08-20 05:03:13 字數 1860 閱讀 2094

1.引用一段**

import re

html = '\

目的是通過第一次soup.find按class粗略篩選並通過soup.find_all篩選出列表中的a標籤並讀入href和title屬性

\但是由於目標鏈結可能有鏈結,而這是我不想要的.請問如何去除?

'

reg = re.compile('<[^>]*>')

print(reg.sub('',html))

2.重點

reg = re.compile('<[^>]*>')

print(reg.sub('',html))

3.例項

開始

import requests

import re

from bs4 import beautifulsoup

retxt=open('test.log','r')

for x in range(250,999):

#rurl=rurl.strip('\n')

url=''.format(x)

#print(url)

try:

response=requests.get(url,timeout=1).text

#print(response)

soup=beautifulsoup(response,features="lxml")

result=soup.find_all('span',attrs=)

print('學校:'.format(result))

except requests.exceptions.invalidurl:

pass

except requests.exceptions.connectionerror:

pass

except requests.exceptions.readtimeout:

pass

輸出

學校:[杭州師範大學

]學校:[

去除標籤之後

import requests

import re

from bs4 import beautifulsoup

#retxt=open('test.log','r')

for x in range(250,999):

#rurl=rurl.strip('\n')

url=''.format(x)

#print(url)

try:

response=requests.get(url,timeout=1).text

#print(response)

soup=beautifulsoup(response,features="lxml")

result=soup.find_all('span',attrs=)

reg=re.compile('<[^>]*>',re.s)

print('學校:'.format(reg.sub('',str(result))))

except requests.exceptions.invalidurl:

pass

except requests.exceptions.connectionerror:

pass

except requests.exceptions.readtimeout:

pass

輸出

學校:

學校:學校:[

上海電子資訊職業技術學院

]學校:學校:[

超星大學

python3去掉空格 python如何去掉空格

詳細內容 a ddd dfe dfd efre ddd 1.strip 把頭和尾的空格去掉a.strip ddd dfe dfd efre ddd 2.lstrip 把左邊的空格去掉in 5 a.lstrip out 5 ddd dfe dfd efre ddd 3.rstrip 把右邊的空格去掉 ...

Python3讀取HTML檔案

在學習 designing machine learning systems with python 中文名 機器學習系統設計 python語言實現 一書中,在第三章第二節第五小節 p68 讀取html文件資料的 中。我發現有些不太懂,就把學習過程記錄下來。首先,如果你在python3.6環境中照搬...

Python3 正則匹配問題

python3通過re模組提供對正規表示式的支援。使用re的一般步驟是先將正規表示式的字串形式編譯為pattern例項,然後使用pattern例項處理文字並獲得匹配結果 乙個match例項 最後使用match例項獲得資訊,進行其他的操作。舉個例子 import re pattern re.compi...