python 編碼問題 字元編碼

2021-07-03 17:51:45 字數 724 閱讀 9567

preface: 承接上一條部落格,幫師兄處理json檔案讀入資料庫中。python讀入資料到資料庫中,出現編碼問題。python裡面定義了utf-8,然而檔案中有日文、韓文、其他符號、拉丁編碼等等,對編碼不夠熟悉果然是要死銀的,弄了挺久的,卻終究乙個函式可破。encode()函式。

decode()和encode()這兩個函式,有空的時候還是多看看才是。

# -*- coding: utf-8 -*-

"""created on fri jul 10 16:49:56 2015

@author: shifeng

"""import codecs

import json

import sys

reload(sys)

sys.setdefaultencoding('utf8')

f = codecs.open("***.json")

for line in f:

line_dict = json.loads(line)

text = line_dict["text"]

text = text.encode(encoding="utf-8",errors = "ignores")

***.json檔案中,text欄位的值包含中文、拉丁編碼、日文、韓文等。

unicode(string,encoding="gb2312")

另外編碼問題可參考:

Python字元編碼問題

寫python經常受到字元編碼的困擾,此問題主要是在2.x中.因為2.x中的字串有兩種型別 str和unicode,它們共同的祖先是basestring.下面的經驗主要是基於windows上面的python2.x,使用macos可以減少許多不必要的煩惱.之所以經常出現字元亂碼,有以下幾點原因 pyt...

Python 字元編碼問題

在做自動化測試過程中,總是遇到編碼問題,總結以下幾點 1 在python指令碼中想要有中文出現,比如中文注釋,解決方法 在檔案的頭部加上 coding utf 8 2 想要實現writelines能夠寫入中文 a.file.writelines u 中文 b.str 這裡輸入中文 file.writ...

python字元編碼問題

前言 字元編碼非常容易出問題,我們要牢記幾句話 1.用什麼編碼儲存的,就要用什麼編碼開啟 2.程式的執行,是先將檔案讀入記憶體中 3.unicode是父編碼,只能encode解碼成其他編碼格式 utf 8,gbk這些是子8編碼,只能decode編碼成unicode 一 什麼是字元編碼 我們知道,計算...