Python爬蟲處理抓取資料中文亂碼問題

2021-07-22 23:55:12 字數 383 閱讀 3725

亂碼原因:

因為你的檔案宣告為utf-8,並且也應該是用utf-8的編碼儲存的原始檔。但是windows的本地預設編碼是cp936,也就是gbk編碼,所以在控制台直接列印utf-8的字串當然是亂碼了。

解決方法:

在控制台列印的地方用乙個轉碼就ok了,列印的時候這麼寫:

print myname.decode('utf-8').encode('gbk')
比較通用的方法是:

import sys

type = sys.getfilesystemencoding()

print myname.decode('utf-8').encode(type)

Python爬蟲處理抓取資料中文亂碼問題

亂碼原因 因為你的檔案宣告為utf 8,並且也應該是用utf 8的編碼儲存的原始檔。但是windows的本地預設編碼是cp936,也就是gbk編碼,所以在控制台直接列印utf 8的字串當然是亂碼了。解決方法 在控制台列印的地方用乙個轉碼就ok了,列印的時候這麼寫 print myname.decod...

Python爬蟲 app資料抓取 1

一 1.安卓端模擬器環境搭建 2.抓包利器使用 3.自動化控制工具使用 二 1.資料分析 2.使用者畫像 3.統計系統 4.商業競爭 三 1.簡單 2.困難 a.可能需要適當的反編譯,分析出加密演算法並抓取到資訊 b.可能加固,需要脫殼,然後反編譯,分析出加密演算法並抓取到資訊 c.需要破解通過各式...

python 爬蟲 基本抓取

首先,python中自帶urllib及urllib2這兩個模組,基本上能滿足一般的頁面抓取,另外,requests 也是非常有用的。對於帶有查詢欄位的url,get請求一般會將來請求的資料附在url之後,以?分割url和傳輸資料,多個引數用 連線。data requests data為dict,js...