BeautifulSoup 解析中文網頁亂碼問題

2021-06-28 00:38:10 字數 366 閱讀 9070

import urllib2

from beautifulsoup import beautifulsoup

page = urllib2.urlopen('');

soup = beautifulsoup(page,fromencoding="gb18030")

print soup.originalencoding

print soup.prettify()

如果中文頁面編碼是gb2312,gbk,在beautifulsoup構造器中傳入fromencoding="gb18030"引數即可解決亂碼問題,即使分析的頁面是utf8的頁面使用gb18030也不會出現亂碼問題!

**:

BeautifulSoup解析資料

4 基本操作 coding utf 8 author wengwenyu from bs4 import beautifulsoup fp open soup text.html encoding utf 8 soup beautifulsoup fp,lxml print soup 根據標籤名進行...

資料解析 BeautifulSoup

bs4資料解析 例項化乙個beautifulsoup物件,並且將頁面遠嗎載入到該物件中。通過呼叫beautifulsoup物件中相關屬性方法進行標籤定位,資料提取。pip install bs4 pip install lxml 解析器 下面介紹乙個是從本地html文件中載入beautifulsou...

BeautifulSoup解析xml檔案的使用初步

借助拉手網的開放api藉口,獲取特定城市的當日 資料 列印響應 獲取每個店鋪的短標題和購買數量 print each.data.display.shorttitle.text,each.data.display.bought.text if name main fetch 沒有和etree.elem...