bs4爬取網頁基礎

2021-10-02 09:49:51 字數 867 閱讀 9427

import requests

from bs4 import beautifulsoup

def getsoup(url):

try:

r = requests.get(url, timeout=30)

r.raise_for_status()

# print(r.text) # **很亂

soup = beautifulsoup(r.text, "html.parser") # parser分析器、解析器

# print(soup.prettify()) # 美化後的網頁**

print(soup.a) # 獲取標籤內容

print(soup.a.name) # 獲取標籤名字

print(soup.a.parent.name)

print(soup.a.parent.parent.name)

tag = soup.a

print(type(tag)) # tag屬性

print(tag.attrs) # 列印屬性,無論存在屬性都會返回乙個字典型別

print(type(tag.attrs)) # 列印屬性型別

print(tag.attrs['class']) # 列印class屬性的屬性值

print(type(tag.attrs['class']))

print(tag.string) # 獲取字串

except expression as identifier:

print("錯誤")

if __name__ == "__main__":

url = ""

getsoup(url)

BS4爬取豆瓣電影

爬取豆瓣top250部電影 建立表 connect.py from sqlalchemy import create engine hostname localhost port 3306 username root password 123456 database douban db url my...

爬蟲 bs4 爬取扇貝 python 單詞書

本例不涉及cookie,即抓取的資源無需登入認證。爬蟲主要做兩件事,乙個是抓取請求鏈結,另乙個是分析響應的資料。鑑於扇貝單詞書的詞串頁中的頁碼是通過js動態生成,直接抓取頁面內容是不能獲取,因此程式模擬了它的分頁請求路徑 向目標url發請求,拉取響應體 分析頁面 爬取指定內容 抓取鏈結 分析資料 資...

基於bs4的網頁遊歷

1.html的基本格式 1.下行遊歷。1.1 contents import requests r requests.get demo r.text from bs4 import beautifulsoup soup beautifulsoup demo,html.parser print sou...