尋找錯誤標註資料策略

2021-10-14 13:10:50 字數 731 閱讀 8770

使用訓練好的模型,得到**結果和標註結果比對,不一樣的可能為noise 的資料

缺點:需要有訓好的模型,模型不能過擬合

度量:所有訓練epoch 的標註位置的值與其他位置的最大值的差值的平均。

標註位置的值與其他位置的最大值的差值的平均:越大說明標註越正確,越小或者為負數說明不正確。

所以通過選擇乙個閾值得到noise樣本。

作者使用閾值方法是自適應的:

思想:aum小的或者為負數的是標註錯誤的樣本,那麼就構造一組這樣的樣本即可。構造樣本類別為c+1類別。

選擇總樣本的c+1分之一,將這些樣本歸位c+1類,那麼這些類都是錯誤的了,利用這些樣本訓練得到的aum, 取99%分位點作為閾值。

總體流程如下:

1、取乙個n/c+1子集, 標註為c+1

2、該子集和剩餘的資料作為訓練集

3、訓練直到第一次學習率下降,計算所有資料的aum,

4、取99%分為點作為閾值

5、使用閾值得到剩餘資料的雜訊資料。

可以看出,一次流程找出的為剩餘資料的雜訊,所以上述流程需要反覆執行,這樣可以找到所有資料的雜訊。

identifying mislabeled data using the area under the margin ranking

其他:

尋找錯誤結點練習

一棵二叉樹原本是搜尋二叉樹,但是其中有兩個節點調換了位置,使得這棵二叉樹不再是搜尋二叉樹,請找到這兩個錯誤節點並返回他們的值。保證二叉樹中結點的值各不相同。給定一棵樹的根結點,請返回兩個調換了位置的值,其中小的值在前。只有兩種情況,調換的兩個數相鄰,調換的兩個數不相鄰 如果兩個數相鄰,只有一次順序反...

索尼 資料標註

面試過程 面試官沒有要我的簡歷,說是不需要。她說這是乙份比較枯燥的工作,需要長時間對著電腦螢幕。還說可能會和我想象的不同。我們實習生是坐在一起的,可能很少有機會接觸到公司那些技術大佬。而且公司的專案大多是保密的,她也不便透露太多。計算機視覺的部門有的時候也會招人,但是要求很高。最後面試官說她是很願意...

資料標註工具

via vgg image annotation,vgg影象標註器 labelme 最著名的標註工具之一 labelbox 對於大型標記專案很合適,提供不同型別標記任務的選項 coco ui 用於標註 coco 資料集的工具 1.via vgg image annotation,vgg影象標註器 鏈...