為什麼要在python檔案頭宣告編碼方式？

在寫python時，有時會在檔案頭宣告編碼方式，如下：

# -*- coding: utf-8 -*-

有時又沒有，似乎寫不寫都沒關係。但實際上這樣的想法是不行的，即便你沒有上面的宣告，python將預設為ascii標準編碼，對python直譯器來說兩者相同，但對編輯器來說，就可能出現識別不了的問題。

官方文件pep 263是這麼描述的：

在python 2.1中，只能使用基於latin-1的編碼「 unicode-escape」編寫unicode文字。

這使得程式設計環境對在許多亞洲國家/地區的非latin-1語言環境中生活和工作的python使用者而言非常不利。

程式設計師可以使用最喜歡的編碼來編寫其8位字串，但是繫結到unicode文字的「 unicode-escape」編碼

換句話說，預設的ascii標準編碼(規定了128個字元的編碼)，對於英文本母是足夠的，但是對於非英語國家編碼就顯得複雜了起來(具體也可以搜尋字元編碼相關知識)。比如法語德語中還有注音，它們可以ascii(總共256)中閒置的字元，但是對於更複雜的中文則還有專門的比如gb2312方式。

這樣就針對每種語言都有各種各樣的編碼方式，有沒有一種統一的能夠囊括所有符號的編碼方式呢？有，那就是unicode。

unicode 是乙個很大的集合，現在的規模可以容納100多萬個符號。每個符號的編碼都不一樣，比如，u+0639表示阿拉伯字母ain，u+0041表示英語的大寫字母a，u+4e25表示漢字嚴。具體的符號對應表，可以查詢unicode.org，或者專門的漢字對應表。

注意unicode 只是乙個符號集，它只規定了符號的二進位制**，卻沒有規定這個二進位制**應該如何儲存。於是utf-8應運而生，成為在網際網路上使用最廣的一種 unicode 的實現方式。其他實現方式還包括 utf-16（字元用兩個位元組或四個位元組表示）和 utf-32（字元用四個位元組表示。

前面pep263已經表明python支援utf-8方式，實現方式見本文開頭，python官方則建議宣告編碼方式的同時宣告直譯器路徑，

如下:

#!/usr/local/bin/python3

# -*- coding: utf-8 -*-

而一般簡化的宣告可以寫成：

#coding=utf-8

或者

#coding:utf-8

只需要匹配以下正規表示式即可：

^
[ \t\f]
*#.*?coding[:=][ \t]*([-_.a-za-z0-9]+)

python中標頭檔案的宣告

字元編碼筆記：ascii，unicode 和 utf-8

為什麼要在python檔案頭宣告編碼方式？

Python 檔案頭注釋

為什麼不要在中國註冊網域名稱

為什麼模板函式的定義也要在標頭檔案裡

為什麼要在python檔案頭宣告編碼方式？

Python 檔案頭注釋

為什麼不要在中國註冊網域名稱

為什麼模板函式的定義也要在標頭檔案裡

相關推薦