關於亂碼的問題

我之前的認知一直是亂碼的原因是編碼和解碼的方式沒有對應，所謂三碼合一的問題，存在計算機底層的資料都是二進位制的形式，但是今天在看廖雪峰的教程時寫道：

*搞清楚了ascii、unicode和utf-8的關係，我們就可以總結一下現在計算機系統通用的字元編碼工作方式：

在計算機記憶體中，統一使用unicode編碼，當需要儲存到硬碟或者需要傳輸的時候，就轉換為utf-8編碼。

在儲存和傳輸文字的時候，用utf-8很多，是因為對於大量以拉丁字母等ansi字元為主的文獻，utf-8非常節省空間。但計算機處理文字的時候，記憶體中一般都不用utf-8。因為utf-8是變長編碼，不從頭掃瞄一遍，你不知道第幾個字元在哪個位置上，這在處理的時候非常浪費時間。現在很多語言/程式的處理辦法，是使用源於原始utf-16的乙個定長編碼，只處理字元碼在16位以內的字元，不支援超過16位的罕見字。這種16位定長的編碼方式被稱為ucs-2。那些零星的幾個突破16位的字元，除非你專門研究古文或者奇怪的小語種，一般來說是遇不到的。遇到了也是黑人問號臉。比如，還有。嗯，我提交後就發現知乎後台就不幸被我命中，無力處理這兩個擴充套件漢字，於是只好編輯一下，用圖來表示他們。他們是

在操作字串時，我們經常遇到str和bytes的互相轉換。為了避免亂碼問題，應當始終堅持使用utf-8編碼對str和bytes進行轉換。

由於python源**也是乙個文字檔案，所以，當你的源**中包含中文的時候，在儲存源**時，就需要務必指定儲存為utf-8編碼。當python直譯器讀取源**時，為了讓它按utf-8編碼讀取，

#!/usr/bin/env python3

# -- coding: utf-8 --

關於亂碼的問題

關於亂碼的問題

關於中文亂碼的問題

關於jsp亂碼的問題

關於亂碼的問題

關於亂碼的問題

關於中文亂碼的問題

關於jsp亂碼的問題

相關推薦