BeautifulSoup爬蟲實戰

2021-10-09 14:47:12 字數 725 閱讀 7434

import requests

from bs4 import beautifulsoup

# 定義請求url

url = ''

# 定義請求頭

headers =

res = requests.get(url=url, headers=headers)

# 判斷是否成功並獲取原始碼

if res.status_code == 200:

print('請求成功')

# 解析資料

soup = beautifulsoup(res.text, 'lxml')

# 獲取資料

# 獲取文章大div

divs = soup.find_all('div', class_="sons")

#print(divs)

data =

for i in divs:

cont = i.find('div', class_="cont")

#判斷非空 cont.p is not none

if cont.p:

varlist =

# 寫入資料

with open('./gushi.txt', 'w', encoding='utf-8') as fp:

for i in data:

print(i)

print('檔案已寫入!')

爬蟲 BeautifulSoup 模組

二 根據這個dom樹就可以按照節點的名稱 屬性和文字搜尋節點 find all 方法會搜尋出所有滿足要求的節點,find 方法只會搜尋出第乙個滿足要求的節點 兩個方法的引數一模一樣 三 得到節點以後,就可以訪問它的名稱 屬性 文字。a為標籤名稱 超連結 href,class為屬性,顯示在頁面上的是p...

爬蟲beautifulsoup實踐

爬蟲beautifulsoup實踐 一 觀察response。首先,在chrome瀏覽器裡觀察一下該網頁的response內容,可以觀察到,的url都存放在img標籤下面,srcset屬性裡面,而且它們的class屬性都為 2zekz。二 理清爬蟲步驟的思路。規律已經找出來了 下一步就把爬蟲的思路寫...

爬蟲資料 Beautiful Soup

安裝 pip intsall bs4 beautiful soup的簡介 beautiful soup是python的乙個庫,最主要的功能是從網頁抓取資料,官方解釋如下 github位址 和lxml一樣,beautifulsoup也是乙個html xml的解析器,主要功能也是如何解析和提取html ...