各字符集編碼範圍總結

2021-08-23 13:34:50 字數 1807 閱讀 1585

** ,我有刪減,只帖出常用的。原文有非常詳細的日文的。

utf8

code:

[\x01-\x7f]|[\xc0-\xdf][\x80-\xbf]|[\xe0-\xef][\x80-\xbf]|[\xf0-\xff][\x80-\xbf]

utf16

code:

[\x00-\xd7][\xe0-\xff]|[\xd8-\xdf][\x00-\xff]

jiscode:

[\x20-\x7e]|[\x21-\x5f]|[\x21-\x7e]

sjis

code:

[\x20-\x7e]|[\xa1-\xdf]|([\x81-\x9f]|[\xe0-\xef])([\x40-\x7e]|[\x80-\xfc])

euc_jp

code:

[\x20-\x7e]|\x81[\xa1-\xdf]|[\xa1-\xfe][\xa1-\xfe]|\x8f[\xa1-\xfe]

euc_jp標點符號及特殊字元

code:

[\xa1-\xa2][\xa0-\xfe]

euc_jp全形數字

code:

\xa3[\xb0-\xb9]

euc_jp全形大寫英文

code:

\xa3[\xc1-\xda]

euc_jp全形小寫英文

code:

\xa3[\xe1-\xfa]

euc_jp全形平假名

code:

\xa4[\xa1-\xf3]

euc_jp全形片假名 2007-03-12 15:00更新

code:

\xa3[\xb0-\xb9]|\xa3[\xc1-\xda]|\xa5[\xa1-\xf6][\xa3][\xb0-\xfa]|[\xa1][\xbc-\xbe]|[\xa1][\xdd]

euc_jp全形漢字        2007-03-12 15:06更新

code:

[\xb0-\xcf][\xa0-\xd3]|[\xd0-\xf4][\xa0-\xfe]|[\xb0-\xf3][\xa1-\xfe]|[\xf4][\xa1-\xa6]|[\xa4][\xa1-\xf3]|[\xa5][\xa1-\xf6]|[\xa1][\xbc-\xbe]

big5

code:

[\x01-\x7f]|[\x81-\xfe]([\x40-\x7e]|[\xa1-\xfe])

gbkcode:

[\x01-\x7f]|[\x81-\xfe][\x40-\xfe]

gb2312漢字

code:

[\xb0-\xf7][\xa0-\xfe]

gb2312半形標點符號及特殊符號

code:

\xa1[\xa2-\xfe]

gb2312羅馬陣列及專案序號

code:

\xa2([\xa1-\xaa]|[\xb1-\xbf]|[\xc0-\xdf]|[\xe0-\xe2]|[\xe5-\xee]|[\xf1-\xfc])

gb2312全形標點及全形字母

code:

\xa3[\xa1-\xfe]

gb2312日文平假名

code:

\xa4[\xa1-\xf3]

gb2312日文片假名

code:

\xa5[\xa1-\xf6]

補充:gb18030

code:

[\x00-\x7f]|[\x81-\xfe][\x40-\xfe]|[\x81-\xfe][\x30-\x39][\x81-\xfe][\x30-\x39]

字符集 字元編碼總結

字符集 charset 是乙個系統支援的所有抽象字元的集合。字元是各種文字和符號的總稱,包括各國家文字 標點符號 圖形符號 數字等。字元編碼 是一套規則,將字元和二進位制資料建立對映關係。1 ascll american standard code for information interchan...

正規表示式中對各字符集編碼範圍的總結

字符集 日文字符集的各種字 標點以及特殊符號 utf8 x01 x7f xc0 xdf x80 xbf xe0 xef x80 xbf xf0 xff x80 xbf utf16 x00 xd7 xe0 xff xd8 xdf x00 xff jis x20 x7e x21 x5f x21 x7e ...

字符集 編碼

字符集概念 1 字符集 可以表示的字元和字元對應計算機位元組碼的對映 2 字元編碼方式 計算機中用來表示和傳輸如前所述字符集中對映的位元組碼的編碼方式。對於ascii和gb2312等字符集,他們在傳輸和計算機表示時的位元組碼不用編碼,直接用字元對應的位元組碼表示。但比如unicode 字符集,就有多...