小白學爬蟲筆記8 資訊提取的一般方法

2021-08-21 20:55:12 字數 1098 閱讀 1455

方法二:無視標記形式,直接搜尋關鍵資訊

融合方法:結合形式解析與搜尋方法,提取關鍵資訊

from bs4 import beatifulsoup

soup = beautifulsoup(demo, "html.parser")

for link in soup.find_all('a'):

print(link.get('href'))

<>.find_all(name,attrs,recursive,string,**kwargs)
返回乙個列表型別,儲存查詢的結果 name:標籤名稱

soup.find_all('a')

soup.find_all(['a','b'])

for tag in soup.find_all(true):

print tag.name

import re # 正規表示式

for tag in soup.find_all(re.compile('b')):

print(tag.name)

attrs:屬性值

soup.find_all('p','course')

soup.find_all(id = 'link1')

soup.find_all(id = 'link')

soup.find_all(id=re.compile('link'))

recursive:是否對子孫全部檢索,預設true

soup.find_all('a')

soup.find_all('a',recursive=false)

string:<>...標籤中字串區域進行檢索

soup.find_all(string = "basic python")

import re

soup.find_all(string = re.compile("python"))

() 等價於與.findall() soup() 等價於soup.findall()

Python網路爬蟲與資訊提取MOOC學習 預備

一 ide 概念 integrated development environment整合開發環境 提供了程式開發環境的應用程式,一般包括 編輯器 編譯器 偵錯程式和圖形使用者介面等工具。整合了 編寫功能 分析功能 編譯功能 除錯功能等一體化的開發軟體服務套。二 python的ide分類 文字工具類...

python網路爬蟲與資訊提取 學習筆記day3

day3 只需兩行 解析html或xml資訊 具體 實現 day3 1 注意beautifulsoup的b和s需要大寫,因為python大小寫敏感 import requests r requests.get r.text demo r.text from bs4 import beautifuls...

Python網路爬蟲與資訊提取(一)網路爬蟲前奏

本專題面向具有python程式設計基礎的各類學習者,講解利用python語言爬取網路資料並提取關鍵資訊的技術和方法,幫助學習者掌握定向網路資料爬取和網頁解析的基本能力。本專題介紹python計算生態中最優秀的網路資料爬取和解析技術,具體講授構建網路爬蟲功能的兩條重要技術路線 requests bs4...