bs4爬取網頁基礎

import requests
from bs4 import beautifulsoup
def getsoup(url):
try:
r = requests.get(url, timeout=30)
r.raise_for_status()
# print(r.text) # **很亂
soup = beautifulsoup(r.text, "html.parser") # parser分析器、解析器
# print(soup.prettify()) # 美化後的網頁**
print(soup.a) # 獲取標籤內容
print(soup.a.name) # 獲取標籤名字
print(soup.a.parent.name)
print(soup.a.parent.parent.name)
tag = soup.a
print(type(tag)) # tag屬性
print(tag.attrs) # 列印屬性,無論存在屬性都會返回乙個字典型別
print(type(tag.attrs)) # 列印屬性型別
print(tag.attrs['class']) # 列印class屬性的屬性值
print(type(tag.attrs['class']))
print(tag.string) # 獲取字串
except expression as identifier:
print("錯誤")
if __name__ == "__main__":
url = ""
getsoup(url)

BS4爬取豆瓣電影

爬取豆瓣top250部電影建立表 connect.py from sqlalchemy import create engine hostname localhost port 3306 username root password 123456 database douban db url my...

爬蟲 bs4 爬取扇貝 python 單詞書

本例不涉及cookie,即抓取的資源無需登入認證。爬蟲主要做兩件事，乙個是抓取請求鏈結，另乙個是分析響應的資料。鑑於扇貝單詞書的詞串頁中的頁碼是通過js動態生成，直接抓取頁面內容是不能獲取，因此程式模擬了它的分頁請求路徑向目標url發請求，拉取響應體分析頁面爬取指定內容抓取鏈結分析資料資...

基於bs4的網頁遊歷

1.html的基本格式 1.下行遊歷。1.1 contents import requests r requests.get demo r.text from bs4 import beautifulsoup soup beautifulsoup demo,html.parser print sou...

bs4爬取網頁基礎

BS4爬取豆瓣電影

爬蟲 bs4 爬取扇貝 python 單詞書

基於bs4的網頁遊歷

相關推薦