資料相關如何進行資料標註（1）

現在網路上關於深度學習演算法的文章很多，但深度學習其實是資料驅動型。很多時候資料足夠好，能給演算法開發提供很大的便利。

1、資料標註的作用

資料標註是大部分人工智慧演算法得以有效執行的關鍵環節。人工智慧演算法是資料驅動型演算法，也就是說，如果想實現人工智慧，首先需要把人類理解和判斷事物的能力教給計算機，讓計算機學習到這種識別能力。

資料標註的過程是通過人工貼標的方式，為機器系統可供學習的樣本。資料標註是把需要機器識別和分辨的資料貼上標籤，然後讓計算機不斷地學習這些資料的特徵，最終實現計算機能夠自主識別。

資料的高質量體現在兩個方面：乙個標註的數量多，二是標註的質量高。

影象標註的質量標準：影象標註的***壞取決於畫素點的判定準確性。標註畫素點越接近被標註物的邊緣畫素，標註的質量就越高，標註的難度也越大。如果影象標註要求的準確率為100%，標註畫素點與被標註物的邊緣畫素點的誤差應該在1個畫素以內。

語音標註的質量標準：語音標註時，語音資料發音的時間軸與標註區域的音標需保持同步。標註於發音時間軸的誤差要控制在1個語音幀以內。若誤差大於1個語音幀，很容易標註到下乙個發音，造成雜訊資料。

文字標註的質量標準：文字標註涉及到的任務較多，不同任務的質量標準不同。例如：分詞標註的質量標準是標註好的分詞與詞典的詞語一致，不存在歧義；情感標註的標註質量標準是對標註句子的情感分類級別正確。

多數投票演算法（majority voting，mv）是常用的標註質量評估演算法。mv 演算法是由詹森提出的一種通用性強的質量控制演算法。它將絕大多數使用者選擇的結果視為最終結果。其基本思想為：假設有\(m\)個影象標註任務\((t_1,t_2,...t_m)\)，每個任務\(t_i\)對應乙個二元分類。為提高標註質量和標註可靠性，將需要標註的物件\(x_i\)分配給\(n\)個員工（一共\(m\)個員工，\(n≤m\)）。每個工人的標註結果為\(y_i^j\in\left\\)，再根據\((y_i^1,...y_i^n)\)推斷出\(x_i\)的最終標籤，其計算公式為：

\(\hat= \begin1,

& \dfrac\begin \sum_^n y_i^j \end>\dfrac\\ random\ guess,

& \dfrac\begin \sum_^n y_i^j \end=\dfrac \\ 0,

& \dfrac\begin \sum_^n y_i^j \end<\dfrac

\end\)

影象資料的標註流程為：

（1）資料清洗：排除資料存在缺失值、雜訊資料、重複資料等質量問題。

（2）資料標註：劃分標註任務、制定標註規範。進行標註任務。

（3）標註檢驗：由標註審核員或機器質檢機制，審核標註質量

名稱簡介執行平台標註形式標註格式

labelimg

著名的影象標註工具

windows,linux,mac

矩形框voc和yolo格式

labelme

windows,linux,mac

多邊形、矩形、圓形、多段線、線段、點

voc 和 coco 格式

rectlabel

影象標註

mac多邊形、矩形、多段線線段、點

yolo、kitti、 coco1、csv

vott

windows,linux,mac

多邊形、矩形、點

tfrecord、csv、vott

labelbox

-多邊形、矩形、線、點、巢狀分類

json 格式

via-

矩形、圓、橢圓、多邊形、點和線

json 格式

coco ui

用於標註 coco 資料集的工具，基於 web 方式

-矩形、多邊形、點和線

coco格式

vatic

linux

-voc 格式

brat

基於 web 的文字標註工具，主要用於對文字的結構化標註

linux

-ann 格式

deepdive

處理非結構化文字的標註工具

linux

-nlp 格式

praat

語音標註工具

windows,unix，linux,mac

-json 格式

精靈標註助手

多功能標註工具

windows,linux,mac

矩形、多邊形和曲線

xml 格式

[1]蔡莉,王淑婷,劉俊暉,朱揚勇.資料標註研究綜述[j].軟體學報,2020,31(02):302-320.

資料相關如何進行資料標註（1）

資料相關如何進行資料標註（1）

資料相關如何進行資料標註（2）

如何進行資料同步

資料相關 如何進行資料標註（1）

資料相關 如何進行資料標註（1）

資料相關 如何進行資料標註（2）

如何進行資料同步

相關推薦

資料相關如何進行資料標註（1）

資料相關如何進行資料標註（1）

資料相關如何進行資料標註（2）