Python使用bs4爬取資料時亂碼問題

2021-09-14 00:01:15 字數 500 閱讀 3012

使用requests和beautifulsoup模組爬取網頁資料時,有時會出現亂碼情況,如下所示:

需要爬去的網頁的編碼格式為:

pyhton**如下所示:

import requests

from bs4 import beautifulsoup

def get_content(url):

content_data=requests.get(url)

#下面這句話去掉則亂碼,加上則正常顯示,編碼格式gb2312是根據網頁源**中設定的編碼格式來指定的  

content_data.encoding='gb2312'

soup=beautifulsoup(content_data.text,"html.parser")

content=soup.select("#f_article > p")

return content[0].get_text()

正常編碼:

bs4爬取網頁基礎

import requests from bs4 import beautifulsoup def getsoup url try r requests.get url,timeout 30 r.raise for status print r.text 很亂 soup beautifulsoup ...

BS4爬取豆瓣電影

爬取豆瓣top250部電影 建立表 connect.py from sqlalchemy import create engine hostname localhost port 3306 username root password 123456 database douban db url my...

爬蟲 bs4 爬取扇貝 python 單詞書

本例不涉及cookie,即抓取的資源無需登入認證。爬蟲主要做兩件事,乙個是抓取請求鏈結,另乙個是分析響應的資料。鑑於扇貝單詞書的詞串頁中的頁碼是通過js動態生成,直接抓取頁面內容是不能獲取,因此程式模擬了它的分頁請求路徑 向目標url發請求,拉取響應體 分析頁面 爬取指定內容 抓取鏈結 分析資料 資...