xml格式的 27721 等字元解析

2021-05-02 13:28:36 字數 1050 閱讀 6695

由於要解析fb2電子書文字,這方面似乎俄文資料比較多啊,沒辦法,摸著石頭過河吧

利用網上的乙個軟體any2fb2把一段文字轉換成fb2,用editplus直接開啟fb2

文字內容:

漢 fb2 測試

fb2內容:

漢 fb2 測試

有發現,小樣,原來你穿了fb2的馬甲,骨子裡卻是xml的種。

xml解析網上資料太多了,不感冒,現在說下這裡面的"&#"開頭,中間為數字,';'號結尾的東東吧。比如漢其實就是'漢',

這些字元瀏覽器可以自動轉換的,現在我們來實現這個轉換。  

開頭與結尾的字元不管它,取中間數字部分,網上有人說這些是utf-8的編碼,不好意思,至少在這裡是不正確的,

比如27721,這其實是十進位制的,而不是十六進製制,把它轉成十六進製制為0x6c49,正是'漢'的ucs2編碼,其utf-8編碼為e6b189。

接下來把它轉換成ascii

wchar * wszucs2 = l"/x6c49";

int len = widechartomultibyte(cp_acp, 0, wszucs2, -1, null, 0, null, null);

char *szgbk=new char[len + 1];

szgbk[len] = '/0';

widechartomultibyte (cp_acp, 0, wszucs2, -1, szgbk, len, null,null);

messageboxa(null, szgbk, null, mb_ok);//輸出'漢'

delete szgbk;

xml輸出的格式美化,字串的xml格式美化

在解析xml中經常會遇到這兩個問題 一是輸出的xml檔案是需要美化 二是輸入的xml也需要美化之後轉成字串。正好目前專案中解析xml檔案的時候用到了這兩個過程,在此記錄記錄方便今後查閱。將符合xml的字串進行美化,美化後的字串輸出後與xml檔案中的效果一樣 param str return publ...

字元格式(gbk utf8等)

gbk就是在儲存你的帖子的時候,乙個漢字占用兩個位元組。外國人看會出現亂碼,此為我中華為自己漢字編碼而形成之解決方案。utf8就是在儲存你的帖子的時候,乙個漢字占用3個位元組。但是外國人看的話不會亂碼,此為西人為了解決多位元組字元而形成之解決方案。ascii iso 8859 1 是鼻祖,最簡單的方...

C 構造xml格式的字串

比如要構造這樣的字串 password bs002servicecode head 3203231993052802 idcard 0001 000101 00010102aptitudecode 初領traintype peopleinfo 3203231993052802 idcard 0001...