判斷字元是否是GB2312 80的漢字。

首先，先介紹gb2312-80編碼。參看文章「gb2312編碼」。以下內容來自那篇文章。

gb2312或gb2312-80是乙個簡體中文字符集的中國國家標準，全稱為《資訊交換用漢字編碼字符集--基本集》，由中國國家標準總局發布，2023年5月1日實施。gb2312編碼通行於大陸；新加坡等地也採用此編碼。幾乎所有的中文系統和國際化的軟體都支援gb2312。

gb2312標準共收錄6763個漢字，其中一級漢字3755個，二級漢字3008個；同時，gb2312收錄了包括拉丁字母、希臘字母、日文平假名及片假名字母、俄羅斯語西里爾字母在內的682個全形字符。

gb2312的出現，基本滿足了漢字的計算機處理需要，它所收錄的漢字已經覆蓋99.75%的使用頻率。

對於人名、古漢語等方面出現的罕用字，gb2312不能處理，這導致了後來gbk及gb18030漢字字符集的出現。

分割槽表示

gb2312中對所收漢字進行了「分割槽」處理，每區含有94個漢字/符號。這種表示方式也稱為區位碼。

01-09區為特殊符號。

16-55區為一級漢字，按拼音排序。

56-87區為二級漢字，按部首/筆畫排序。

10-15區及88-94區則未有編碼。

舉例來說，「啊」字是gb2312之中的第乙個漢字，它的區位碼就是1601。

位元組結構

在使用gb2312的程式中，通常採用euc儲存方法，以便相容於ascii。

每個漢字及符號以兩個位元組來表示。第乙個位元組稱為「高位位元組」，第二個位元組稱為「低位位元組」。「高位位元組」使用了0xa1-0xf7(把01-87區的區號加上0xa0)，「低位位元組」使用了0xa1-0xfe(把01-94加上0xa0)。例如「啊」字在大多數程式中，會以0xb0a1儲存。（與區位碼對比：0xb0=0xa0+16,0xa1=0xa0+1）。

在實際的運用中，有時會要求判斷乙個中文字元是否是gb2312中的中文字元。

在vb2005中，tb = system.text.encoding.getencoding("gb18030").getbytes(s)，表示將字元s的內碼放到tb這個位元組陣列裡。其中gb18030是向下相容gb2312。

於是，編寫了乙個函式，用來判斷字元是否是gb2312的中文字元。用的是vb2005


public
function
isgb2312(
byval
s as
string
) as
boolean
ifs 
isnothing
then
return
false
ifs =""
then
return
false
ifs.length 
>
1thens =
s.substring(0, 
1)dimtb() 
asbyte
trytb 
=system.text.encoding.getencoding(
"gb18030
").getbytes(s)
iftb.length =2
then
iftb(0) 
>=
176andalso
tb(0
) <=
247andalso
tb(1
) >=
161 _
andalso
tb(1
) <=
254then
iftb(0) 
=215
andalso
tb(1
) >
249then
return
false
else
return
true
endif
else
return
false
endif
else
return
false
endif
catch
return
false
endtry
end function

注：在vb2005中，asc函式也能返回字元的內碼，不過返回值是integer型的。而且由於和早期的vb版本相容，返回值還進行了一定的處理。早期的vb中integer用的是2個位元組，那麼，漢字的內碼也是兩個位元組，這兩個位元組組成乙個integer型的變數，由於第乙個位元組的最高位一定是1，所以，早期的vb的漢字的內碼是乙個小於0的整數。而vb2005的integer型的變數是4個位元組。漢字的內碼是兩個位元組，轉到integer型，填充到後面兩個位元組，前面兩個位元組用0填充，這樣一來，vb2005的漢字內碼應該是乙個正數，但為了和早期的相容，vb2005做了一定的處理，用了乙個公式256x+y-65536來計算漢字的內碼，其中x是內碼的第乙個位元組，y是內碼的第二個位元組。

判斷字元是否是GB2312 80的漢字。

判斷字元是否是GB2312 80的漢字。

判斷字串是否是中文

C 判斷字元是否是全形半形

判斷字元是否是GB2312 80的漢字。

判斷字元是否是GB2312 80的漢字。

判斷字串是否是中文

C 判斷字元是否是全形半形

相關推薦