漢字在計算機上的表達方式

2021-09-28 21:25:08 字數 1691 閱讀 3887

乙個漢字在計算機中占有2個字元

西文字元中的ascii碼表示西文字元是,用的是7位的ascii碼,為了在計算機中儲存,最高位(第八位)預設為0,所以可以表示27個不同的字元;擴充套件的ascii碼,使用的第八位,不在預設為0,所以最多可以表示28個字元。

中文跟西文不大一樣。中文的乙個漢字佔16位,也就是兩個位元組的位置。編碼方式跟ascii碼類似,但是為了與ascii碼區別開來,最高位預設為1.

計算機字元處理原理:2.儲存:那文字資訊是如何交流傳遞的呢?我曾經做了乙個中文編碼轉換的軟體,對這個有一些了解。儲存的話,牽扯乙個重要的東西-----編碼,每乙個字元(包括各國國家的字元,當然包括漢字)有乙個對應編碼的唯一內碼,就是儲存了。然而同乙個字元(例如「中」字)不同編碼對應的內碼不一樣,unicode編碼的話在計算機裡的儲存的十六進製制是「2d4e」,兩個位元組;國標碼存的是「d6d0」,兩個位元組;utf8存的是「e4b8ad」三個位元組

漢字的編碼過程:

漢字編碼分為外碼、機內碼、字形碼、向量漢字四個階段。

1.外碼(輸入碼)

外碼也叫輸入碼,是用來將漢字輸入到計算機中的一組鍵盤符號。常用的輸入碼有拼音碼、五筆字體碼、自然碼、表形碼、認知碼、區位碼和電報碼等,一種好的編碼應有編碼規則簡單、易學好記、操作方便、重位元速率低、輸入速度快等優點,每個人可根據自己的需要進行選擇。

2.交換碼(國標碼)

計算機內部處理的資訊,都是用二進位制**表示的,漢字也不例外。而二進位制**使用起來是不方便的,於是需要採用資訊交換碼。中國標準總局2023年制定了中華人民共和國國家標準gb2312–80《資訊交換用漢字編碼字符集–基本集》,即國標碼。

區位碼是國標碼的另一種表現形式,把國標gb2312–80中的漢字、圖形符號組成乙個94×94的方陣,分為94個「區」,每區包含94個「位」,其中「區」的序號由01至94,「位」的序號也是從01至94。94個區中位置總數=94×94=8836個,其中7445個漢字和圖形字元中的每乙個佔乙個位置後,還剩下1391個空位,這1391個位置空下來保留備用。

3.機內碼

根據國標碼的規定,每乙個漢字都有了確定的二進位制**,在微機內部漢字**都用機內碼,在磁碟上記錄漢字**也使用機內碼。

4.漢字的字形碼

字形碼是漢字的輸出碼,輸出漢字時都採用圖形方式,無論漢字的筆畫多少,每個漢字都可以寫在同樣大小的方塊中。通常用16×16點陣來顯示漢字。

5.漢字位址碼

漢字位址碼是指漢字型檔中儲存漢字字形資訊的邏輯位址碼。它與漢字內碼有著簡單的對應關係,以簡化內碼到位址碼的轉換。

字形碼是確定乙個漢字字形點陣的**, 漢字字形點陣中的每個點對應乙個二進位制位。

向量漢字是用軟體描述漢字 ,向量字型檔儲存對每乙個漢字的描述資訊,比如乙個筆劃的起始、終止座標,半徑、弧度等等。在輸出時要經過一定的數**算。 向量漢字可隨意放大、縮小而不變形。 windows使用的字型檔為以上兩類。在fonts目錄下,擴充套件名為fon的檔案為點陣字型檔;擴充套件名為ttf為向量字型檔。

漢字編碼處理過程示意圖:

漢字在計算機上的表達方式大概就是這樣子,內容中的是找的示意圖。

在計算機上安裝深度作業系統

深度作業系統是乙個國產的linux發行版,介面美觀 系統友好 中文支援完善,易上手。對於linux新手來說,是乙個不錯的作業系統。這裡將我安裝深度作業系統的過程複述一下。在這裡,我用的是uefi gpt的方式來安裝的。一張容量足夠的空閒u盤,4g就足夠了。將製作好的啟動盤插入電腦,重啟進入bios設...

如何讓其他計算機訪問我的計算機上mysql資料庫

先判斷是不是在同 乙個網路之間,你ping 一下它的ip 看能不能ping通.這樣就有兩種情況,第一種 能ping通,說明你們在同乙個網路中,可以直接訪問.你只要在你的登入使用者中的帳號加上可外部訪問就可以了.也就是授權.比如你的帳號是root 你可以進入mysql後,你可以看到,每個帳號對應 的有...

提公升域使用者帳戶在本地計算機上的許可權

工作在域模型下 domain users 組的使用者,經常會因為沒有寫入許可權等原因造成工作上的不便,應老同事需求具體說下方法,以達到自己動手,豐衣足食的目的。要達到 我的電腦我做主 只要提公升帳戶在本地計算機上的許可權就好了,domain users 組的使用者預設在本地使用者組的 users 裡...