拓展 Python 之字串編碼

計算機只認識數字。然而，我們平時在使用計算機時用的都是人類能讀懂的字元。如何能讓計算機能夠讀懂人類的字元？

字元-------------------（翻譯過程）--------------------數字

所謂字元編碼，就是乙個字元如何對應乙個特定數字的標準。字元編碼發展的三個階段：

1、ascii碼：乙個bytes代表乙個字元，1bytes=8bits，8bit可以表示0~2^8-1種變化（即可以表示256個字元）。最初只用了後7位，已經完全能夠表示鍵盤上所有的字元了。後來為了將拉丁文也包含進ascii表，將最高位也占用了。

2、為了滿足中文和英文，中國人制定了『gbk』。2bytes代表乙個中文字元，1bytes代表1個英文本元。為了滿足自身的需要，各國也紛紛制定自己的編碼。

3、各國有各國的標準，就會不可避免地產生衝突，就會產生亂碼，亂碼問題的本質就是不統一。解決這個問題？

統一全世界？不現實 unicode（萬國碼）（定長） unicode統一用2個bytes代表乙個字元。對於全篇都是英文的文字來說，unicode編碼無疑是多了一倍的儲存空間。於是就產生了utf-8（可變長，unicode transformation formate），對英文本元只用1bytes表示，對中文字元則用3bytes表示，其他生僻字用更多的bytes去存。目前的現狀：記憶體中的編碼固定就是unicode，唯一可變的就是硬碟上對應字元的編碼。

總結：1、在存入磁碟時，需要將unicode轉換成一種更為精準的編碼格式：utf-8，將資料量控制到更精簡。

2、在讀入記憶體時需要將utf-8轉成unicode

拓展 Python 之字串編碼

字串拓展

Python合集之Python字串編碼轉換

Python字串編碼

拓展 Python 之 字串編碼

字串拓展

Python合集之Python字串編碼轉換

Python字串編碼

相關推薦

拓展 Python 之字串編碼