BeautifulSoup使用相關知識

2021-08-02 20:08:20 字數 3498 閱讀 1000

1基礎使用,獲取某一**內容的h1標籤

2複雜html解析

print(name.get_text())#get_text()清除標籤,只保留內容

4通過網際網路採集:外鏈

from urllib.request import urlopen

from bs4 import beautifulsoup

import re

import datetime

import random

pages=set()

random.seed(datetime.datetime.now())

#獲取所有內鏈的鏈結

defgetinternallinks

(bsobj,includeurk):

internallinks=

for link in bsobj.findall('a',href=re.compile('^(/|.*'+includeurk+')')):

if link.attrs['href'] is

notnone:

if link.attrs['href'] not

in internallinks:

return internallinks

#獲取頁面所有外鏈的鏈結列表

print('隨機外鏈:'+externallink)

python群:298948196

BeautifulSoup 安裝使用

linux環境 1.安裝 方法一 解壓 tar xzvf beautifulsoup4 4.2.0.tar.gz 安裝 進入解壓後的目錄 python setup.py build sudo python setup.py install 方法二 快速安裝 ubuntu sudo apt get i...

使用BeautifulSoup解析HTML

通過css屬性來獲取對應的標籤,如下面兩個標籤 可以通過class屬性抓取網頁上所有的紅色文字,具體 如下 from urllib.request import urlopen from bs4 import beautifulsoup html urlopen bsobj beautifulsou...

BeautifulSoup庫的使用

解析器 使用方法 優勢劣勢 python標準庫 beautifulsoup markup,html.parser python的內建標準庫 執行速度適中 文件容錯能力強 python 2.7.3 or 3.2.2 前的版本中文容錯能力差 lxml html 解析器 beautifulsoup mar...