資料相關 如何進行資料標註(1)

2021-10-24 01:13:25 字數 2420 閱讀 8174

現在網路上關於深度學習演算法的文章很多,但深度學習其實是資料驅動型。很多時候資料足夠好,能給演算法開發提供很大的便利。

1、資料標註的作用

資料標註是大部分人工智慧演算法得以有效執行的關鍵環節。人工智慧演算法是資料驅動型演算法,也就是說,如果想實現人工智慧,首先需要把人類理解和判斷事物的能力教給計算機,讓計算機學習到這種識別能力。

資料標註的過程是通過人工貼標的方式,為機器系統可供學習的樣本。資料標註是把需要機器識別和分辨的資料貼上標籤,然後讓計算機不斷地學習這些資料的特徵,最終實現計算機能夠自主識別。

資料的高質量體現在兩個方面:乙個標註的數量多,二是標註的質量高。

影象標註的質量標準:影象標註的***壞取決於畫素點的判定準確性。標註畫素點越接近被標註物的邊緣畫素,標註的質量就越高,標註的難度也越大。如果影象標註要求的準確率為100%,標註畫素點與被標註物的邊緣畫素點的誤差應該在1個畫素以內。

語音標註的質量標準:語音標註時,語音資料發音的時間軸與標註區域的音標需保持同步。標註於發音時間軸的誤差要控制在1個語音幀以內。若誤差大於1個語音幀,很容易標註到下乙個發音,造成雜訊資料。

文字標註的質量標準:文字標註涉及到的任務較多,不同任務的質量標準不同。例如:分詞標註的質量標準是標註好的分詞與詞典的詞語一致,不存在歧義;情感標註的標註質量標準是對標註句子的情感分類級別正確。

多數投票演算法(majority voting,mv)是常用的標註質量評估演算法。mv 演算法是由詹森提出的一種通用性強的質量控制演算法。它將絕大多數使用者選擇的結果視為最終結果。其基本思想為:假設有\(m\)個影象標註任務\((t_1,t_2,...t_m)\),每個任務\(t_i\)對應乙個二元分類。為提高標註質量和標註可靠性,將需要標註的物件\(x_i\)分配給\(n\)個員工(一共\(m\)個員工,\(n≤m\))。每個工人的標註結果為\(y_i^j\in\left\\),再根據\((y_i^1,...y_i^n)\)推斷出\(x_i\)的最終標籤,其計算公式為:

\(\hat= \begin1,

& \dfrac\begin \sum_^n y_i^j \end>\dfrac\\ random\ guess,

& \dfrac\begin \sum_^n y_i^j \end=\dfrac \\ 0,

& \dfrac\begin \sum_^n y_i^j \end<\dfrac 

\end\)

影象資料的標註流程為:

(1)資料清洗:排除資料存在缺失值、雜訊資料、重複資料等質量問題。

(2)資料標註:劃分標註任務、制定標註規範。進行標註任務。

(3)標註檢驗:由標註審核員或機器質檢機制,審核標註質量

名稱簡介執行平台標註形式標註格式

labelimg

著名的影象標註工具 

windows,linux,mac

矩形框voc和yolo格式

labelme

windows,linux,mac

多邊形、矩形、圓形、多段線、線段、點

voc 和 coco 格式

rectlabel

影象標註

mac多邊形、矩形、多段線線段、點 

yolo、kitti、 coco1、csv 

vott

windows,linux,mac

多邊形、矩形、點

tfrecord、csv、vott 

labelbox

-多邊形、矩形、線、 點、巢狀分類

json 格式 

via-

矩形、圓、橢圓、多邊形、點和線

json 格式 

coco ui

用於標註 coco 資料集的工具,基於 web 方式

-矩形、多邊形、 點和線

coco格式

vatic

linux 

-voc 格式 

brat

基於 web 的文字標註工具,主要用於對文字的結構化標註

linux 

-ann 格式

deepdive

處理非結構化文字的標註工具 

linux 

-nlp 格式

praat

語音標註工具 

windows,unix,linux,mac

-json 格式

精靈標註助手

多功能標註工具 

windows,linux,mac

矩形、多邊形和曲線 

xml 格式

[1]蔡莉,王淑婷,劉俊暉,朱揚勇.資料標註研究綜述[j].軟體學報,2020,31(02):302-320.

資料相關 如何進行資料標註(1)

現在網路上關於深度學習演算法的文章很多,但深度學習其實是資料驅動型。很多時候資料足夠好,能給演算法開發提供很大的便利。1 資料標註的作用 資料標註是大部分人工智慧演算法得以有效執行的關鍵環節。人工智慧演算法是資料驅動型演算法,也就是說,如果想實現人工智慧,首先需要把人類理解和判斷事物的能力教給計算機...

資料相關 如何進行資料標註(2)

現在網路上關於深度學習演算法的文章很多,但深度學習其實是資料驅動型。很多時候資料足夠好,能給演算法開發提供很大的便利。本文的標註要點 於影象標註專家adela barriuso的標註筆記。她於2007年開始使用labelme系統地標註sun資料庫,標註了 超過25萬個物體。筆記記錄了標註過程中曾遇到...

如何進行資料同步

建立資料庫的鏈結 create database link dblink test connect to 需要鏈結的資料庫的名字 identified by 密碼 using 這個鏈結的別名 建立物化檢視用於同步資料 create materialized view test test是同步過來的實...