字符集相關問題

2021-04-28 00:42:52 字數 1216 閱讀 7812

字符集相關問題

字符集目前有兩個大的類別:本地字符集和國際字符集,其中每一類別的字符集又有多個

不同的字元編碼例項。比如:本地字符集中基本上對於每乙個不同的地區和國家就會形成乙個

屬於自己的字符集(ascii, latin-1, chs等),國際字符集中同樣包括多種不同的編碼方案

(utf8, utf16等)。

那麼在c/c++程式中如何完成上述字符集之間的轉換工作呢?分成兩種情況:

1. 通過const char *cstr使用開發環境中的編輯器輸入字串常量"中國",如下:

const char *cstr = "中國";

這樣一來cstr所指向的字串記憶體中儲存的則是本地字元編碼下所形成的字串,也

就是說,上面的cstr中儲存著chs字元編碼集中的字元;

2. 通過const wchar_t *wstr使用開發環境中的編輯器輸入字串常量"中國",如下:

const wchar_t *wstr = "中國";

這樣一來wstr所指向的字串記憶體中儲存的則是國際字元編碼(在vc++下是ucs2,

在gcc下是ucs4)下所形成的字串,也就是說,上面的wstr中儲存著utf16字元編

碼集中的字元;

那麼如何將cstr轉換成為wstr呢?可以通過c語言中的標準轉換函式mbstowcs來完成該工

作,此時需要注意的是如果直接使用mbstowcs進行轉換會得到乙個錯誤的結果,並不能成功

的完成轉換成為國際寬字元的要求,這是為什麼呢?在c/c++語言標準中定義了其執行時的

字符集環境為"c",也就是ascii字符集的乙個子集,那麼mbstowcs在工作時會將cstr中所包

含的字串看作是ascii編碼的字元,而不認為是乙個包含有chs編碼的字串,所以他會將

每乙個中文拆成2個ascii編碼進行轉換,這樣得到的結果就是會形成4個wchar_t的字元組成

的串,那麼如何才能夠讓mbstowcs正常工作呢?在呼叫mbstowcs進行轉換之間必須明確的告

訴mbstowcs目前cstr串中包含的是chs編碼的字串,通過setlocale( lc_all "chs" )函式

呼叫來完成,需要注意的是這個函式會改變整個應用程式的字符集編碼方式,必須要通過重

新呼叫setlocale( lc_all, "c" )函式來還原,這樣就可以保證mbstowcs在轉換時將cstr中

的串看作是中文串,並且轉換成為2個wchar_t字元,而不是4個。

mysql字符集相關問題 MySQL 字符集問題

mysql 支援許多字符集及其編碼方案,甚至是不同編碼之間的轉換.在使用 mysql 進行應用程式程式設計時,常常會出現亂碼現象,這通常是由於客戶端沒有宣告與 mysql 伺服器通訊的字串編碼造成的後果.解決方案 設定變數 character set client 檢視當前資料庫的字符集 show ...

字符集相關

1.檢視 nls lang 的方法 windows使用 echo nls lang 如 e echo nls lang american america.zhs16gbk unix使用 env grep nls lang 如 opt oracle env grep nls lang nls lang...

mysql字符集問題 mysql字符集問題

我們新建mysql資料庫的時候,需要指定資料庫的字符集,一般我們都是選擇utf8這個字符集,但是還會又乙個utf8mb4這個字符集,好像和utf8有聯絡,今天就來解析一下這兩者的區別。起源mysql在5.5.3之後增加了這個utf8mb4的編碼,mb4就是most bytes 4的意思,專門用來相容...