python抓取中文網頁亂碼通用解決方法

2021-09-12 22:20:27 字數 631 閱讀 7820

我們經常通過python做採集網頁資料的時候,會碰到一些亂碼問題,今天給大家分享乙個解決網頁亂碼,尤其是中文網頁的通用方法。

首頁我們需要安裝chardet模組,這個可以通過easy_install 或者pip來安裝。

安裝完以後我們在控制台上匯入模組,如果正常就可以。

比如我們遇到的一些iso-8859-2也是可以通過下面的方法解決的。

直接上**吧:

import urllib2

import sys

import chardet

req = urllib2.request(「

content = urllib2.urlopen(req).read()

typeencode = sys.getfilesystemencoding()##系統預設編碼

infoencode = chardet.detect(content).get(『encoding』,』utf-8′)##通過第3方模組來自動提取網頁的編碼

html = content.decode(infoencode,』ignore』).encode(typeencode)##先轉換成unicode編碼,然後轉換系統編碼輸出

print html

Python抓取中文網頁

早就有想法把部落格每天的訪問流量記下來,剛好現在申請了gae的應用,又開始學python,正好拿這個練手。打算先利用python把訪問記錄儲存在本地,熟悉之後可以部署到gae,利用gae提供的cron就可以每天更近訪問流量了。ok,開始 首先是簡單的網頁抓取程式 python view plain ...

中文網頁編碼使用python轉為中文

編碼1 測試 中文對應的網頁實體編碼unicode 編碼2 u6d4b u8bd5 編碼3 測試 中文對應的網頁實體編碼utf 8 編碼4 xe6 xb5 x8b xe8 xaf x95 編碼4 ascii 碼,其中三個 x表示乙個漢字 s b xe6 xb5 x8b xe8 xaf x95 pri...

python 處理抓取網頁亂碼

相信用python的人一定在抓取網頁時,被編碼問題弄暈過一陣 前幾天寫了乙個測試網頁的小指令碼,並查詢是否包含指定的資訊。在html urllib2.open url read 時,列印到控制台始終出現亂碼。一般的解決辦法就是html.decode utf 8 encode gb2312 不過這個即...