網路爬蟲 DOM處理XML

2021-08-20 15:15:14 字數 1061 閱讀 6253

xml有一下3個基本點:1,標籤開始和結束,2,屬性和其值,3,文字內容

例題1.通過xml找到根的名字

乙個名為book.xml的檔案

<?xml version="1.0"?>

learn pythontitle>

100price>

book>

learn xmltitle>

80price>

book>

bookstore>

通過下面的程式找出根名字

from xml.dom import minidom   #匯入xml

doc = minidom.parse(r'/media/sf_share/lspe/r_0.11/book.xml') #路徑

root = doc.documentelement #找根節點元素(這是分析xml的第一步驟)

print(type(root)) #根型別

print(root.nodename) #根名字

》》bookstore

#通過標籤找title

books = root.getelementsbytagname('book') 通過標籤尋找,標籤名為book,有兩個,是乙個list

for book in

books:

titles = book.getelementsbytagname('title')#找標籤為title

prices = book.getelementsbytagname('price')

title = titles[0].childnodes[0].nodevalue #輸出標籤對應的子節點的值

price = prices[0].childnodes[0].nodevalue

print(title,price)

>>> learn python 100

>>> learn xml 80

上面getelementsbytagname是根下的乙個函式,要知道根有多少其他函式,可以通過print(dir(root))檢視

python對xml封裝 dom處理

usr bin python coding utf8 from xml.dom import minidom class childindexoutofbound ception exception pass class domxmlutil def init self pass def readx...

利用DOM來處理XML文件 zz

xml檔案1 0代號 content.xml0品牌 brandlist.xml0型體 speccontent.xml0客戶 buyerlist.xml0規格 speclist.xml0中國 aa.xml xml檔案2 我說的是它們的結構,為什麼不一樣,但是出到乙個table裡面卻是一樣的啊,檔案2變...

用於處理XML文件的DOM元素屬性

childnodes 返回當前元素所有子元素的陣列 firstchild 返回當前元素第乙個下級子元素 lastchild 返回當前元素的最後乙個子元素 nextsibling 返回緊跟在當前後面的 元素 nodevalue 指定表示元素值的讀寫屬性 parentnode 返回元素的父節點 prev...