BeautifulSoup模組的簡單使用

2021-07-02 07:07:59 字數 933 閱讀 4816

可以通過dir(beautifulsoup.beautifulsoup)檢視其有什麼函式,如果想知道某個函式的含義可以使用help(beautifulsoup.beautifulsoup.find)來檢視其官方文件。

可以使用pprint來整輸出,使用dir和help之前一定要import beautifulsoup。

# -*- coding:utf8 -*-

import urllib

import urllib2

import beautifulsoup

import re

htmlsource = urllib.urlopen("").read(200000)

soup = beautifulsoup.beautifulsoup(htmlsource)

#輸出print soup.head

#輸出...

print soup.head.title

#會返回乙個列表,每個列表元素都是...

tags = soup.findall('a')

print tags

print '京東放養的爬蟲'

#取中間包含的元素,如果有href則輸出

for item in soup.fetch('a',href=true):

print item['href']

#找到所有的,如果其中href元素中含有taobao則輸出

for a in soup.findall('a',href=true):

if re.findall('taobao', a['href']):

print "found the url:", a['href']

#輸出中間class屬性等於j_tanx mod,只輸出第乙個

print str(soup.find("div",))

爬蟲 BeautifulSoup 模組

二 根據這個dom樹就可以按照節點的名稱 屬性和文字搜尋節點 find all 方法會搜尋出所有滿足要求的節點,find 方法只會搜尋出第乙個滿足要求的節點 兩個方法的引數一模一樣 三 得到節點以後,就可以訪問它的名稱 屬性 文字。a為標籤名稱 超連結 href,class為屬性,顯示在頁面上的是p...

BeautifulSoup模組解析html

beautiful soup是乙個的三方模組,用於從html頁面提取資訊 用於這個目的時,它比正規表示式更好用 安裝 及匯入 pip install beautifulsoup4 安裝import bs4 匯入接下來開始學習這個模組 bs.beautifulsoup 函式呼叫時需要乙個字串,其中包含...

資料解析模組BeautifulSoup簡單使用

1 準備測試頁面test.html html head title the dormouse s story title head body p class title b the dormouse s story b p p class story once upon a time there w...