特殊字元的html編碼轉化

2022-03-16 06:01:13 字數 897 閱讀 2537

採集的資料中,原來是日文的"ブリーチ, burīchi",html**中是ブリーチ, burīchi,這樣做有個好處,網頁就不一定要像utf-8這樣的編碼,但是想要原來的文字,php轉半天過不來,後來發現是未指定編碼集,用

html_entity_decode

("ブリーチ, burīchi"

,ent_noquotes,'

utf-8')

就可以了。

其實,原理也很簡單,這個是模擬這個函式的功能,php4的話,就一定要用了

function

unhtmlentities(

$string

) function

uchr (

$codes

) unhtmlentities(

"ブリーチ, burīchi"

);用.net實現下編碼

byte bcomments 

=encoding.utf8.getbytes(

"一ンブル????中文");

char

ccomments 

=encoding.utf8.getchars(bcomments);

stringbuilder charbuilder 

=new

stringbuilder();   

foreach

(char

c in

ccomments)

else

這段**的作用是將所有的中文、韓文、日文字元通過硬編碼輸出成為html實體。而html實體是不受responseencoding和頁面編碼集影響的。

說明:\u0800 以上的為中、韓、日字元。

中文的範圍:\u4e00 - \u9fa5,日文在\u0800 - \u4e00,韓文為\u9fa5以上。

HTML特殊字元編碼對照表

字元 十進位制字元編號 實體名字 驚嘆號exclamation mark 雙引號quotation mark 數字標誌number sign 美元標誌dollar sign 百分號percent sign ampersand 單引號apostrophe 小括號左邊部分left parenthesis...

字元編碼轉化

ansi c定義了統一的編碼轉化函式setlocale,mbstowcs,wcstombs,但這些函式在win32平台上實現了,卻未在linux平台上實現,在linux平台上實現編碼轉化需要呼叫iconv open,iconv,iconv close函式.win32平台自己提供了兩個編碼碼轉化函式m...

特殊字元編碼

編碼 名稱補充 普通空格符 u0020 backspace u0008 b水平製表符 u0009 t換行符 u000a n垂直製表符 u000b v換頁符 u000c f回車符 u000d r不換行空格 u00a0 相當與 看上去和空格一樣,但是在html中不自動換行,曾在從word拷貝出來的文字中...