資料標註的困境

2022-02-04 05:12:37 字數 2339 閱讀 5218

資料標註的困境

眾所周知,機器學習主要分為兩類:監督學習(supervised learning)與無監督學習(unsupervised learning)。而監督學習離不開資料標註(data labeling),也就是依靠人工 找到groundtruth。

標註平台

服務外包公司

這類公司目前是最多的了,同時也是支撐大部分平台類公司運營的關鍵。乙個相對穩定收益的專案,這個年頭誰不願意做呢?

實際狀況

智慧型時代滾滾巨輪之下,一批批用於「人臉識別」、「自動駕駛」、「自然語言處理」的標註好的資料,正是出自這些學歷不高,每天對著電腦工作8到10小時的人手中——他們是「人工智慧背後的人工」。經過採訪了多個資料標註服務商、資料標註工作室和資料標註者。據業內人士估計,中國全職的「資料標註者」已達到10萬人,兼職人群的規模則接近100萬。他們中有職高學生,有嘗試過40份工作的聾啞人,有從工地輾轉而來的新生代農民工……他們源源不斷地為人工智慧的發展**最重要的「資料燃料」——在現有的技術框架下,資料量越大,質量越好,演算法模型就表現越好。可以說,資料決定著整個人工智慧行業的發展態勢。但標註工作本身是乙個勞動密集型工種,收入並不高。隨著技術的進一步發展,未來還有被取代的可能。許多資料標註者的父輩是參與了中國房地產奇蹟的農民工。如今,父輩手裡的鐵鏟變成了年輕人的滑鼠、鍵盤,但和父輩一樣,他們仍是邊緣者。

燒錢速度有多快?

這些資料標註公司一般會開發出基本的物體識別演算法,然後在人工成本較低的地區招人,培訓他們,讓他們找到機器識別中的錯誤,改正之後提交。比如,一些總部在矽谷的公司會在比較偏遠的州建立分部,進行資料標註。也有很多公司將業務外包給資料標註公司,這些公司的員工一般在非洲國家、印度或者其他人工成本較低的國家。對資料需求量大的公司,每個月支付給外包公司上百萬美元,才能滿足開發需求。

資料標註不僅消耗資金,也是訓練模型中最耗時的環節。從資料採集到最終標識,很可能要等待乙個月的時間。嚴重影響了開發進度。因此,很多無人駕駛公司開始研究資料標識,希望不再依賴人力與第三方公司。

印度資料標註公司imerit

資料標註無處不在

訓練無人駕駛的模型就需要理解各種障礙物的含義,就離不開資料標識。無人駕駛的資料標識主要可以用兩個維度來看。第乙個維度是2d和3d的分別。2d一般指通過攝像頭捕捉到的資料,3d指雷射雷達捕捉到的資料。第二個維度是語義分割(semantic segmentation)與畫框(bounding box)的分別。

2d畫框的例子

3d語義標註的例子

魚和熊掌不可兼得

資料標註的難點主要**於兩個方面:速度與質量。速度慢了就滿足不了模型訓練的需求,而太快就會影響質量,質量低了就會影響模型的準確性。在資源有限的情況下,速度與質量往往魚和熊掌不可兼得。

我們可以通過兩種手段來解決這一矛盾:合理的流程和更自動化的機器學習技術。

首先來看流程。資料標識速度慢,或是質量低,其實很多時候不是技術的問題,而是流程的問題。資料從採集到產出,首先要被「篩選」,分發到資料標識人員的手上,然後被標識,標識的結果再被傳回來,最後需要抽檢,保證質量。這些步驟中很多地方需要改進。比如,哪類資料應該被篩選?質量不合格的標識該怎麼辦?是否要退回重做?重做又需要時間,不重做就意味著需要更多的資料。對於資金不夠充足的公司,改進流程往往是最合適的手段。

從技術方面來看,近年來,automl(automated machine learning)的概念越來越火,即端到端的全自動機器學習技術,可以自主調參,自主評估模型,從而縮短模型訓練的週期。但是,automl不是萬能的。至少在未來幾年裡,我們都無法擺脫對人工資料標識的依賴。我們需要找到一種人機共生的方式,將人類對機器的幫助最大化。

歐洲資料標識市場中,人工標識的佔比始終佔大多數

人機共生(human-in-the-loop)

2020-2030這十年,將是人類探索與ai合作機會的十年。資料標註就是人類與ai合作最完美的途徑之一。利用機器學習技術進行視覺探測,雖然成本低、速度快,但是往往有一定的錯誤率。這時,就需要人類介入,告訴機器錯在了**。機器會記住這些人類提供的回饋資訊,進一步訓練自己的模型,避免下次在類似場景中犯同樣的錯誤,從而形成了乙個迴圈。

比如,ai探測結果是,某個交通訊號燈的顏色是紅色,而人類檢查後發現應該是綠色,就通過某個前端工具點選「錯誤」。開發團隊要盡快找到模型最需要的反饋資訊,為人類標註員提供乙個工具,將人類的反饋快速分享給機器。

標註資料解析 xml格式的標註資料解析

xml基本構成 1.標籤 標籤名 ps 起始標籤和結束標籤是成對存在的。且結束標籤多了個 起始標籤 成份訪問 結合 說明 1.構建樹和跟節點 2.獲取子節點 ps 直客獲取名稱相同的直接子節點 find 節點名稱 獲取同名直接子節點 缺點 只能根據提供的名稱獲取第乙個子節點 findall 節點名稱...

索尼 資料標註

面試過程 面試官沒有要我的簡歷,說是不需要。她說這是乙份比較枯燥的工作,需要長時間對著電腦螢幕。還說可能會和我想象的不同。我們實習生是坐在一起的,可能很少有機會接觸到公司那些技術大佬。而且公司的專案大多是保密的,她也不便透露太多。計算機視覺的部門有的時候也會招人,但是要求很高。最後面試官說她是很願意...

資料標註工具

via vgg image annotation,vgg影象標註器 labelme 最著名的標註工具之一 labelbox 對於大型標記專案很合適,提供不同型別標記任務的選項 coco ui 用於標註 coco 資料集的工具 1.via vgg image annotation,vgg影象標註器 鏈...