python處理檔案編碼

對於儲存自然語言的檔案，有可能採用了不同的編碼，例如漢字的編碼就有多種，utf-8，gb2312，gb18030，iso-8859等字元編碼格式。當處理各種檔案的時候，就需要在各種檔案格式之間轉換，由於utf-8字元編碼格式相容於ascii，且多位元組編碼，不存在大小端的問題，可以使用已有的c語言庫字串處理函式，處理起來較為方便。現在來看看將其他格式（gb2312，gb18030）轉換成utf-8。

使用python處理檔案格式轉換，需要使用codecs模組。使用是，先import codecs 。在codecs可以使用open，lookup函式來開啟檔案。open（filename，mode，encoding，errors，buffering），需要給出filename，mode和encoding，其餘的引數有預設值，不用管的。encoding就是要開啟的檔案的字元編碼方式。當從檔案讀出的內容使用的就是python的內部標示，即unicode標示法。lookup（encoding），返回乙個codecinfo類的例項，encoding是字元編碼名稱，('utf-8','gb2312')。

lookup返回值含有相當多的內容，例項中的encode，decode，用來進行格式轉換。encode用於將內部的ucs-4轉換成呼叫lookup是給出的encoding格式。decode用於將呼叫lookup的encoding格式的字串轉換成ucs-4格式的字串。

lookup返回的例項中可以使用streamreader，streamwriter兩個類，明顯reader，writer都是用於按照encoding來讀取和寫入相應的檔案，引數就是乙個file-like的物件了。reader是按照encoding從stream讀入資料，返回的是unicode字串。writer將unicode字串轉換成encoding格式寫入stream。必須獲取streamreader類得乙個例項，例如a= x.streamreader(file-object) ，然後就可以使用a來完成相應的讀功能。

在codecs模組中，還有decode和encode兩個函式，decode（obj，encoding），這個函式的作用就是將按照encoding編碼的obj轉換成unicode。encode（obj，encoding),這個函式的作用就是將按照ucs-4編碼的obj轉換成encoding格式。

事實上codecs也提供了一些方便的函式，例如'utf_32_be_decode', 'utf_32_be_encode', 'utf_32_decode', 'utf_32_encode', 'utf_32_ex_decode',等等。可以使用嚴格的decode，encode來完成相同的功能。

python處理檔案編碼

Python 字元編碼與檔案處理

python 字元編碼與檔案處理

python字元編碼和檔案處理

python處理檔案編碼

Python 字元編碼與檔案處理

python 字元編碼與檔案處理

python字元編碼和檔案處理

相關推薦