記事本編碼格式

2021-07-02 15:33:57 字數 1016 閱讀 2749

以下為自己概括:

記事本編碼格式 

1、每個字元都是使用乙個編碼來表示的,而每個字元究竟使用哪個編碼代表,要取決於使用哪個字符集(charset)。

開始只有一種字符集,即ansi的 ascii字符集,用 7bits表示乙個字元,能表示 128個字元。

隨後進行拓展,使用 8bits表示乙個字元,能表示 256個字元,新增了有  特殊符號,比如製表符。

為了表示 其他國家 的文字,於是 開始擴充套件ansi,叫做 派生字符集(也叫:多位元組字元系統,mbcs,multi-byte character system)。

這些派生字符集的特點是以ascii 127 bits為基礎,相容ascii 127,他們使用大於128的編碼作為乙個leading byte,緊跟在leading byte後的第二(甚至第三)個字元與leading byte一起作為實際的編碼。

比如 gb-2312

例如在gb-2312字符集中,「連通」的編碼為c1 ac cd a8,其中c1和cd就是leading byte。前127個編碼為標準ascii保留,例如「0」的編碼是30h(30h表示十六進製制的30)。軟體在讀取時,如果看到30h,知道它小於128就是標準ascii,表示「0」,看到c1大於128就知道它後面有乙個另外的編碼,因此c1 ac一同構成乙個整個的編碼,在gb-2312字符集中表示「連」。

但 隨著 字符集 的變多,在國際交流中 轉換字符集不方便,於是提出了unicode 字符集

使用 固定16bits 來表示乙個字元,可表示65536個字元,稱為 utf-16

由於有些系統 每次只能單位元組的處理,故出現了utf-8

例如「連通」兩個字的unicode標準編碼utf-16 (big endian)為:de 8f 1a 90

而其utf-8編碼為:e8 bf 9e e9 80 9a

2、軟體以何種方式 載入字元

檢測文字最開頭的幾個位元組,進行判斷,所以可能會出錯

3、原文 還介紹了一些編碼基礎知識

字元字符集

**點**單元

和常見的編碼方式

個人記事本

size t strlen const char s the strlen function calculates the length of the string s,excluding 不包括 the terminating null byte 0 計算長度時,不包括末尾的結束符 0 但是,換行...

記事本 陳慧琳

翻開隨身攜帶的記事本 寫著許多事都是關於你 你討厭被冷落 習慣被守候 寂寞才找我 我看見自己寫下的心情 把自己放在卑微的後頭 等你等太久 想你淚會流 而幸福快樂是什麼 愛的痛了 痛的哭了 哭的累了 日記本裡頁頁執著 記載著你的好 像上癮的毒藥 它反覆騙著我 愛的痛了 痛的哭了 哭的累了 矛盾心裡總是...

記事本程式

anchor 控制項與容器周圍的距離保持不變 dock 定義容器要停靠到哪一邊,重要的乙個是fill填充 using system using system.collections.generic using system.componentmodel using system.data using...