標註資料解析 xml格式的標註資料解析

2021-10-03 10:12:07 字數 1628 閱讀 9460

xml基本構成:

1.標籤: 《標籤名》 ps:起始標籤和結束標籤是成對存在的。且結束標籤多了個 /

《起始標籤》 … 成份訪問:結合**說明

1.構建樹和跟節點

2.獲取子節點:ps:直客獲取名稱相同的直接子節點

find(節點名稱)

#獲取同名直接子節點(缺點:只能根據提供的名稱獲取第乙個子節點)

findall(節點名稱)

#獲取所有同名直接子節點,返回的節點會存在乙個列表裡面

3.值的訪問:

節點.tag  #獲取節點標籤

節點.attrib #獲取節點屬性 如 ="1.png"

節點.test #獲取文字 即末端葉節點間的文字,如 time1.jpg

import xml.etree.elementtree as et  

xmlpath =

"/timg1.xml"

tree = et.parse(xmlpath)

#構建樹

root = tree.getroot(

)#獲取根節點,此處是的節點

filename = root.find(

'filename'

).text #通過find節點再text獲取文字time1.jpg

for object in root.findall(

'object'):

#獲取所有名為'object'的直接子節點

for attr in

list

(object)

:#list出object的所有直接子節點

if'polygon'

in attr.tag:

#判斷節點標籤

x0 =

float

(attr.find(

'x1'

).text)

y0 =

float

(attr.find(

'y1'

).text)

x1 =

float

(attr.find(

'x2'

).text)

y1 =

float

(attr.find(

'y2'

).text)

x2 =

float

(attr.find(

'x3'

).text)

y2 =

float

(attr.find(

'y3'

).text)

x3 =

float

(attr.find(

'x4'

).text)

y3 =

float

(attr.find(

'y4'

).text)

if'secondlabel'

in attr.tag:

label = attr.find(

'content'

).text

MS COCO資料集標註格式解析

coco是微軟提供的乙個影象識別的資料集。其中包括3個tasks,分別是object instances,object keypoints,和image captions,儲存格式為json。基本的資料結構定義如下 info image license 其中images和licenses是包含多個例...

python讀取xml檔案,VOC格式標註讀取

python解析xml的三種方式 主要用xml.etree.elementtree模組 簡稱 et 來解析xml檔案,它提供了輕量級的python式的api。讀取voc資料集大致流程如下 import xml.etree.elementtree as et tree et.parse file na...

資料標註的困境

資料標註的困境 眾所周知,機器學習主要分為兩類 監督學習 supervised learning 與無監督學習 unsupervised learning 而監督學習離不開資料標註 data labeling 也就是依靠人工 找到groundtruth。標註平台 服務外包公司 這類公司目前是最多的了...