windows 開發的必要知識

現在的windows 作業系統（7 ,8 ,10）都是windows nt核心的。該核心是支援32位或則64位優先權式多工（preemptive multitasking）及多執行緒的圖形作業系統。且是執行在x86架構的cpu上面的。

x86是乙個指令集架構家族（指令就是cpu中最小的行動單元，也就是組合語言翻譯之後對應的機器碼）

x86為cisc（複雜指令集電腦，complex instruction set computer）。最大的特點是低端位元組序(little endian)。

和cisc對應的是risc（精簡指令集計算，英語：reduced instruction set computing）最常見arm架構的處理器（基本上所有的只能手機用的都是這個架構），特點位高階位元組序(big endian)

上面的blog很好的解釋了兩者的關係。

windwos 存在3大核心.dll

這代表了windows的三個主要子系統，它們被稱作kernel，user和gdi。當子系統的數目在windows最近版本中增多時，大多數典型的windows程式產生的函式呼叫仍對應到這三個模組之一。kernel（32位的kernel32.dll實現）處理所有在傳統上由作業系統核心處理的事務－記憶體管理、檔案i/o和多工管理。user（32位的user32.dll實作）指使用者介面，實作所有視窗運作機制。gdi32位的gdi32.dll實作）是乙個圖形裝置介面，允許程式在螢幕和印表機上顯示文字和圖形。

和字符集有關的專業術語很多，解釋起來很麻煩。但是有必要了解一下。先說一說什麼是字符集標準。我們都知道計算機中儲存的最小單位是bit。那麼為了計算機的規格的同一必須有個標準來說明對映關係。比如0100 0001（十進位制65）表示a，0110 0001（十進位制97）表示a，等等。後來有乙個組織叫做ansi（american national standards institute,美國國家標準協會）定義了一種字符集標準，我們統稱為ascii(american standard code for information interchange,美國資訊交換標準碼），有26個小寫字母、26個大寫字母、10個數字、32個符號、33個控制代碼和乙個空格，總共128個字元碼。而ascii的「版本」現在記錄在ansi x3.4-1986字符集——用於資訊交換的7位美國國家標準碼（7-bit ascii：7-bit american national standard code for information interchange）。這個標準是7-bit的美國標準，所以世界上別的國家語言中的特殊符號是無法表示的。所有先後有很多組織和公司有發明了新的字元標準來解決這個問題。又過了很久又出現了乙個組織叫做iso（international standard organization,國際標準組織）它發明了一種ascii的變種。**0x40、0x5b、0x5c、0x5d、0x7b、0x7c和0x7d「為國家使用保留」，而**0x5e、0x60和0x7e標為「當國內要求的特殊字元需要8、9或10個空間位置時，可用於其它圖形符號」。這顯然不是乙個最佳的國際解決方案，因為這並不能保證一致性。但這卻顯示了人們如何想盡辦法為不同的語言來編碼的。後來又經過衍化出現了一種ansi/iso 8859-1-1987，即「american national standard for information processing-8-bit single-byte coded graphic character sets-part 1: latin alphabet no 1」，通常也簡寫為「latin 1」。這個標準是之前兩個組織的標準的折中處理。一位元組中的低7位128個字元還是ascii標準。這樣就還有128位表示別國家的字元了。但是128為怎麼可能表示全部國家的字元呢。所有就有了**頁的概念，例如把多出來的128位中填入法語中特殊符號。然後和之前都128個ascii標準的字元打包在一起，這樣還是乙個位元組。但是我們規定這樣打包之後的東西遍上號，如***頁。這樣以後想用法語的特殊字元就載入相應的**頁就可以了。但是這個能回帶來一些別的問題。假如不同mac和pc上的法語**頁的編號不一樣。所以這樣的標準還是有一些問題，講到這這種**頁機制還是有一些問題。像中國，日本，南韓這樣的國家都是使用象形文本，這些文字可遠不止128為，這樣在**頁的基礎上就出現了dbcs(double-byte character set,雙位元組字符集）標準。dbcs從256**開始，就像ascii一樣。與任何行為良好的**頁一樣，最初的128個**是ascii。然而，較高的128個**中的某些特殊值一旦出現就表總是跟隨著第二個位元組。這兩個位元組一起（稱作首位元組和跟隨位元組）定義乙個字元，通常是乙個複雜的象形文本。雖然中文、日文和韓文共享一些相同的象形文本，但顯然這三種語言是不同的，而且經常是同乙個象形文本在三種不同的語言中代表三件不同的事。windows支援四個不同的雙位元組字符集：**頁932（日文）、936（簡體中文）、949（韓語）和950（繁體漢字）。只有為這些國家（地區）生產的windows版本才支援dbcs。那麼說了怎麼多，那有什麼標準既不是用**頁，也不是用雙位元組表示的字符集標準。當然有。那就是unicode字元,準確的來說是windows支援的是utf-16（下面有解釋）**中從0x0000到0x007f就是ascii字元，而接下來的128個unicode字元（**從0x0080到0x00ff）是iso 8859-1對ascii的擴充套件。unicode中不同部分的字元都同樣基於現有的標準。這是為了便於轉換。希臘字母表使用從0x0370到0x03ff的**，斯拉夫語使用從0x0400到0x04ff的**，美國使用從0x0530到0x058f的**，希伯來語使用從0x0590到0x05ff的**。中國、日本和南韓的象形文本（總稱為cjk）占用了從0x3000到0x9fff的**。unicode有缺點嗎？當然有。unicode字串占用的記憶體是ascii字串的兩倍。（然而壓縮檔案有助於極大地減少檔案所佔的磁碟空間。）但也許最糟的缺點是：人們相對來說還不習慣使用unicode。身為程式寫作者，這就是我們的工作。

看看下面的關鍵字你能理清楚什麼關係嗎？

ansi:（美國國家標準協會american national standards institute）發布

iso:(國際標準化組織 international organization for standardization）

ascii:(美國資訊交換標準碼american standard code for information interchange）

**頁：（code page）

dbcs：(雙位元組字符集 double-byte character set）。

unicode

tips：

unicode時一種標準，它定義了整型到字元的對映關係。但是如何儲存在計算機中呢，這時候就出現了儲存的解決方案utf-8，和utf-16,utf32

utf-8

這個在網頁源**上經常能見到的一種標誌。在實際儲存中乙個字元可能是1位元組，2位元組，3位元組,4個位元組

utf-16

為2個位元組。對於2位元組以外的字元符號，utf-16支援surrogate（**，程式設計了

4個位元組表示）。

utf-32

4個位元組

gbk和gb2312都是中文字元編碼。因為在建立它的時候沒有unicode這個國際的字元編碼，所以各國都和中國一樣建立了自己的字元標準。它們都和unicode是一樣都是一種整數和字元的對映關係。其中gbk包含gb2312，是一種擴充

還有很多編碼不一一介紹了。

windows 開發的必要知識

Windows開發基礎知識

開篇必要的概率統計知識（一）

HTML 關於現代前端必要知識

windows 開發的必要知識

Windows開發基礎知識

開篇必要的概率統計知識（一）

HTML 關於現代前端必要知識

相關推薦