在Linux下使用iconv轉換字串編碼

2021-07-29 11:28:19 字數 2774 閱讀 6380

在linux下寫c程式,尤其是網路通訊程式時經常遇到編碼轉換的問題,這裡要用到iconv函式庫。

iconv函式庫有以下三個函式

123

456

#include 

iconv_t iconv_open(const char *tocode, const char *fromcode); //return (iconv_t)-1 if failed

size_t iconv(iconv_t cd,

char **inbuf, size_t *inbytesleft,

char **outbuf, size_t *outbytesleft); //return (size_t)-1 if failed

int iconv_close(iconv_t cd); //return -1 if failed

這三個函式的功能顯而易見,分別是開啟乙個iconv_t控制代碼,轉換字串以及關閉乙個iconv_t控制代碼。其中有必要一說的是iconv函式,這個函式十分容易用錯。

iconv函式的五個引數中,第乙個引數是iconv控制代碼,第

二、三個引數是需要轉換的字串的位址和長度的位址,第

四、五個引數是儲存結果的字串的位址和長度的位址,注意這裡傳的都是位址,因為這四個引數的值都有會被iconv函式改變。iconv會逐步的將*inbuf中的字元轉換到*outbuf中,並增加*inbuf指標減少*inbytesleft的值,以及增加*outbuf指標減少*outbytesleft的值。

iconv函式會因為以下四種原因停止並返回:

*input中遇到了乙個非法的多位元組序列,返回(size_t)-1並置errno=eilseq,返回時*inbuf指向非法字元的開頭。

*input全部轉換完,返回不可轉換的字元數。

*input中遇到了乙個不完整的多位元組序列,返回(size_t)-1並置errno=einval,返回時*inbuf指向不完整字元的開頭。

*output空間不夠,返回(size_t)-1並置errno=e2big。

以下給出乙個示例函式,將乙個字串從utf-8轉換成gbk後再重新轉換成utf-8。

123

4567

891011

1213

1415

1617

1819

2021

2223

2425

2627

2829

3031

3233

3435

3637

3839

4041

4243

4445

#include 

#include

#include

#include

#include

int charset_convert(const char *from_charset, const char *to_charset,

char *in_buf, size_t in_left, char *out_buf, size_t out_left)

if ((size_t)-1 == iconv(icd, &pin, &in_left, &pout, &out_left))

out_buf[out_len - out_left] = 0;

iconv_close(icd);

return (int)out_len - out_left;

}int main(int argc, char *argv)

//gbk => utf8

to_str_utf8 = (char*)calloc(1, len * 3);

if (-1 == (len = charset_convert("gb2312", "utf-8", to_str_gbk,

len, to_str_utf8, len * 3)))

//output

printf("original : %s\n", from_str);

printf("to gbk : %s\n", to_str_gbk);

printf("gbk to utf8: %s\n", to_str_utf8);

}

我用的xshell連線到虛擬機器,先將terminal的編碼設定為utf-8執行,結果如下

123

original   : 你好,中南。- hello, csu.

to gbk : ţºã¬אŏ¡£- hello, csu.

gbk to utf8: 你好,中南。- hello, csu.

再將terminal的編碼設定為gbk執行,結果如下

123

original   : 浣犲ソ錛屼腑鍗椼€? hello, csu.

to gbk : 你好,中南。- hello, csu.

gbk to utf8: 浣犲ソ錛屼腑鍗椼€? hello, csu.

可見,在相應的編碼下,對應的字串能正常顯示。

在Linux下使用iconv轉換字串編碼

在linux下寫c程式,尤其是網路通訊程式時經常遇到編碼轉換的問題,這裡要用到iconv函式庫。iconv函式庫有以下三個函式 include iconv t iconv open const char tocode,const char fromcode return iconv t 1 if f...

linux使用iconv在不同字元編碼中轉換

在linux系統下利用iconv命令進行gbk與utf 8字元編碼間的轉換 gbk編碼和utf 8編碼的區別 1.gbk的文字編碼是雙位元組來表示的,即不論中 英文本元均使用雙位元組來表示,只不過為區分中文,將其兩個位元組的最高位都定成1。utf 8編碼則是用以解決國際上字元的一種多位元組編碼,它對...

linux下iconv 函式的用法

inux shell 配置檔案中預設的字符集編碼為utf 8 utf 8是unicode的一種表達方式,gb2312是和unicode都是字元的編碼方式,所以說gb2312跟utf 8的概念應該不是乙個層次上的。在linux上進行編碼轉換時,可以利用iconv命令實現,這是針對檔案的,即將指定檔案從...