網頁和URL內非英語字元的編碼方法

2021-07-10 22:50:29 字數 690 閱讀 2056

html和url中對於ascii碼中大於0x7f的字元需要進行編碼,主要有」\u」「&#」兩種字首編碼方式,其後跟的字元都是unicode編碼。

《unicode escape formats》中對各中編碼進行了介紹,比較全面

&#字首的unicode編碼屬於ncr規範,參見

「&#x」開頭的是ncr中的十六進製制格式,裡面的字母常見為小寫,但也可以大小寫混用。

下面是我寫的乙個實現,配合linux系統的iconv函式,可以方便的將unicode轉換為各種網頁編碼。

int uni2ascii(const

char* fmt,const

char* src, const

int srclen, char* dst, const

int dstsize)

else

i+=2;

}return j;

}int main()

uni2ascii(fmt,src_unicode,,,);

}

它的中文轉unicode工具生成「\u」字首碼;中文轉utf-8工具生成的是」&#x」字首碼,即16進製制ncr。

url編碼較為簡單,只有utf-8和gb2312兩種,下面這篇文章講的很透徹,就不再贅述了。

關於java web中字元編碼和url編碼的理解

首先要區分字元編碼和 url編碼的區別,page 指令中指定的字元編碼是儲存頁面的時使用的編碼,url編碼是傳輸請求引數時候使用的編碼。字元編碼 web頁面本身的 page 指令中 content type text html charset gbk 指定的是生成頁面 即響應頁面也就是本頁面 的字元...

字元編碼和網頁檔案

1 字元編碼是怎麼回事?資訊是抽象的,而用來記錄資訊的資料是具體的。比如你腦子裡有個想法,這個想法就是個抽象的東西。雖然它得得確確是存在的,但如果你不把它表達出來,那它事實上等於沒有。怎麼表達呢?說話或寫字,可以用漢語 英語 日語。在c 中,string就是資訊,抽像的。string本身是沒有編碼的...

url編碼的字元對應表

http localhost 8080 chess register?name zhang 20san address hunan age 23url編碼的字元對應表 這些名稱 值對必須符合url編碼,也就是說一些特殊的字元,如空格,問號,與號以及其他一些非字母字元 特別是中文 unicode編碼 ...