XML入門常見問題 3

2021-04-17 08:48:13 字數 4774 閱讀 1244

如何載入有外國和特殊字元的文件?

文件可以包含外國字元,例如:

foreign characters (úóí?) 

例如 磲 的外國字元必須在前面加上 escape 序列。外國字元可以是 utf-8 編碼或用不同編碼指定,如下所示:

foreign characters (磲) 

現在可以正確載入 xml 了。

其他字元是保留在 xml 中的,並且需要以不同的方式處理。下面的 xml:

this & that

產生如下錯誤:

此處不允許有空格。

行 0000001: this & that

位置 0000012: ----------^

此處 & 是 xml 句法結構的一部分,如果它僅僅放在 xml 資料來源內部,那麼不能解釋為 &。您需要替換稱為「實體」的特殊字串行。

this & that

下面的字元需要相應的實體:

< <

& &> >

" "' '

引號字元被用作標記中屬性值的定界符,因此通常不能在屬性值的內部使用。例如,下面的內容將返回錯誤:

此處的單引號既用作屬性定界符,又在屬性值自身中。為了糾正這個問題,可以將屬性定界符換成雙引號:

或者可以將單引號轉義為實體 '

上述兩種方式都將通過 xml 物件模型中的 getattribute 方法返回屬性值 john's stuff。同樣,對於雙引號,您可以使用實體

"。也可以通過將文字放在 cdata 節中來處理元素內容中的特殊字元。下面的內容是正確的:

在本例子中,xml 物件模型將 cdata 節點顯示 xml 節點的子節點,它將返回字串

this & that is just "text" content.

作為 nodevalue。

如何在 visual studio 6.0 c 中使用 msxml com 元件?

在 visual c 6.0 中使用 msxml com 元件的最簡便方式是使用 #import 指令:

#import "msxml.dll" named_guids no_namespace#import "msxml.dll" named_guids no_namespace

它定義了所有 ixml* 介面和介面 id,從而可以在應用程式中使用它們了。也可以從 inetsdk 獲取 msxml 型別庫和標頭檔案(英文),以及包含類 iids 的 uuid.lib。

如何在 xml 中使用 html 實體?

下面的 xml 包含 html 實體:

它產生下列錯誤:

這是因為 xml 只有五個內建實體。關於內建實體的詳細資訊,請參閱如何載入有外國和特殊字元的文件?。

要使用 html 實體,需要用 dtd 定義它們。有關 dtd 的詳細資訊,請參閱 w3c xml 建議(英文)。要使用該 dtd,請將它直接包括在 doctype 標記中,如下所示:

要載入它,需要關閉 ixmldomdocument 介面的 validateonparse 屬性。請嘗試將它貼上到「validator 測試頁」中,關閉 dtd 驗證,然後單擊「驗證」。請注意文件將載入,並且版權字元將顯示在 validator 頁面的末尾的 dom 樹中。

如果已經完成了 dtd 驗證,那麼必須將作為引數實體的 html 實體包括在現有的 dtd 中,如下所示:

%htmlent;

%htmlent;

它將定義所有 html 實體,以便在 xml 文件中使用它們。

在元素內容中如何處理空白字元?

xml dom 有三種訪問元素文字內容的方式:

屬性 行為

nodevalue 按照原始的 xml 源中指定的那樣,返回 text、cdata、comment 和 pi 節點上的原始文字內容(包括空白字元)。對於 element 節點和 document 本身,則返回空值。

資料 與 nodevalue 相同

文字 重複連線指定子樹中的多個 text 和 cdata 節點並返回組合結果。

注意: 空白字元包括新行、tab 和空格。

nodevalue 屬性通常返回原始文件中的內容,與文件如何載入和當前 xml:space 範圍無關。

文字屬性連線指定子樹中的所有文字並擴充套件實體。這與文件如何載入、preservewhitespace 開關的當前狀態和當前 xml:space 範圍有關,請看如下所示:

preservewhitespace = true when the document is loaded

preservewhitespace=truepreservewhitespace=truepreservewhitespace=falsepreservewhitespace=fal***ml:space=preservexml:space=defaultxml:space=preservexml:space=default保留保留保留保留並截斷

preservewhitespace = false when the document is loaded

preservewhitespace=truepreservewhitespace=truepreservewhitespace=falsepreservewhitespace=fal***ml:space=preservexml:space=defaultxml:space=preservexml:space=default半保留半保留並截斷半保留半保留並截斷

此處的保留表示和原始 xml 文件中完全相同的原始文字內容,截斷意味著前導和尾部空格已經刪除,半保留意味著保留了「重要的空白字元」並規範化了「不重要的空白字元」。重要的空白字元是文字內容內部的空白字元。不重要的空白字元是標記之間的空白字元,請看如下所示:

/n/t  jane/n

/t**ith   /n

在本示例中,紅色是可以忽略的不重要的空白字元,而綠色是重要的空白字元,因為它是文字內容的一部分,因此有不可忽略的重要含義。所以在本例中,文字屬性返回下列結果:

狀態 返回值

保留 "/n/t  jane/n/t**ith  /n"

保留並截斷 "jane/n/t**ith"

半保留 "  jane **ith  "

半保留並截斷 "jane **ith"

請注意「半保留」將規範化不重要的空白字元,例如,新行和 tab 字元將退化為單個空格。如果更改 xml:space 屬性和 preservewhitespace 開關,那麼文字屬性將返回相應的不同值。

cdata and xml:space="preserve" subtree boundaries

在下面的例子中,cdata 節點或「保留」節點的內容將得到連線,原因是它們不參與不重要的空白字元規範化。例如:

/n/t jane /n

/t   **ith   ]>/n

在這種情況下,cdata 節點內部的空白字元不再與「不重要」空白字元「合併」,並且不會截斷。因此「半保留並截斷」情況將返回下列內容:

"jane   **ith   "

在此, 和 標記之間的不重要的空白字元將包括在內,與 cdata 節點的內容無關。如果用下列內容代替 cdata,那麼將返回相同結果:

**ith 

實體是特殊的

實體是作為 dtd 的一部分載入和分析的,並且顯示在 doctype 節點下。它們不一定要有任何 xml:space 範圍。例如:

jane /n

/t/n

">

]>

&jane;

假定 preservewhitespace=false(在 doctype 標記範圍內),在分析實體時不重要的空白字元丟失。實體將不會有空白字元節點。樹將類似於:

doctype foo

entity: jane

element: employee

element: name

text: jane

element: title

text>:software design engineer

element: foo

attribute: xml:space="preserve"

entityref: jane

請注意,在 doctype 內部 entity 節點下顯露的 dom 樹不包含任何 whitespace 節點。這意味著 entityref 節點的子節點也沒有 whitespace 節點,即使實體引用在 xml:space="preserve" 的範圍內也是這樣。

給定文件中引用的每個 entity 的例項通常都有相同的樹。

如果實體必須絕對保留空白字元,那麼它必須在自己內部指定自己的 xml:space 屬性,或者文件 preservewhitespace 開關必須設定為 true。

如何處理屬性中的空白字元?

有幾種方式可以訪問屬性值。ixmldomattribute 介面有 nodevalue 屬性,它等價於作為 microsoft 擴充套件的 nodevalue 和 text 屬性。這些屬性返回: 屬性 返回的文字

attrnode.nodevalue

attrnode.value

getattribute("name") 返回和原始文件中完全相同的內容(和擴充套件的實體)。

attrnode.nodetypedvalue null

attrnode.text 除了前導和尾部的空白字元已經截斷之外,其他與 nodevalue 相同。 

「xml 語言」規範為 xml 應用程式定義了下列行為: 屬性型別 返回的文字

cdata id、idref、idrefs、entity、entities、notation、列舉

半規範化 全規範化

在此半規範化代表將新行和 tab 字元轉換為空格,但是多個空格不會退化為乙個空格。

XML入門常見問題 4

如何處理空白字元?有些時候,xml 物件模型將顯示包含空白字元的 text 節點。空白字元被截斷後,多半會帶來一些混亂。例如下面的 xml 例子 ith john 生成下列樹 processing instruction xml doctype person element person text ...

XML入門常見問題 1

一般問題 什麼是 xml?可擴充套件標記語言 xml 是 web 上的資料通用語言。它使開發人員能夠將結構化資料,從許多不同的應用程式傳遞到桌面,進行本地計算和演示。xml 允許為特定應用程式建立唯一的資料格式。它還是在伺服器之間傳輸結構化資料的理想格式。什麼是 msxml?msxml 是提供核心 ...

XML入門常見問題 4

如何處理空白字元?有些時候,xml 物件模型將顯示包含空白字元的 text 節點。空白字元被截斷後,多半會帶來一些混亂。例如下面的 xml 例子 ith john 生成下列樹 processing instruction xml doctype person element person text ...