Google AI推出新的大規模目標檢測挑戰賽

2021-08-21 09:16:31 字數 2501 閱讀 5064

就在幾天前,google ai在kaggle上推出了一項名為open images challenge的大規模目標檢測競賽。當今計算機視覺社群已經很長一段時間沒有進行如此新的大規模競賽,這對視覺研究者來說絕對是乙個令人振奮的訊息。

連續多年imagenet一直是計算機視覺領域的「**標準型」競賽,並且吸引了大量團隊每年都參與競爭,以獲得在imagenet資料集上最低的錯誤率。同時,深度學習技術的突破更是使得影象識別任務取得了令人矚目的巨大進步,甚至超過了人類的準確度。

imagenet是乙個大規模的視覺識別競賽,有著1000個不同的類別和120萬張訓練影象。如此大規模的資料使imagenet變得非常具有挑戰性。通過這個比賽,除了學習到如何很好地分類影象之外,還得到了很重要的一點就是我們得到了可以用於其他視覺任務的特徵提取器。在imagenet上預訓練的特徵提取網路被運用到了許多其他計算機視覺任務,包括目標檢測分割跟蹤等等。此外,這些特徵提取網路的設計同樣也可以適用在那些其他的視覺任務上。例如,shortcut connections(跳連)最初就是來自2023年獲獎的imagenet挑戰團隊,並且現在已經被用於解決計算機視覺任務的大量卷積神經網路結構中。這是一件很有意義的事,大家在乙個挑戰賽中設計的網路可以被應用到更複雜的任務上。

上的錯誤率歷史記錄(顯示每年團隊最佳結果,每年最多10個條目)

google ai在kaggle上推出的新一輪目標檢測競賽是正朝著這個積極方向邁進。到目前為止,coco檢測挑戰一直是目標檢測的重要挑戰之一。但是,與imagenet相比,它規模較小。coco只有80個類別和330k影象。它並不能達到人們在現實世界中那麼複雜的場景想要實現的目標。從業者往往也會發現在自然環境下目標檢測會變得極具挑戰性。相比而言,imagenet至少有著足夠大的資料集和足夠多的類,它對於預訓練和使用網路進行遷移學習都非常有用。也許在足夠大的資料集上,訓練得到的目標檢測器在遷移學習時會同樣有著足夠好表現。

google ai已公開發布了open images資料集v4版本。kaggle上由google ai發起的比賽的資料集就是基於這個資料集,但又不是完全相同的。另外,open images同樣遵循著pascal voc,imagenet和coco的傳統,而且規模空前

open images challenge基於open images資料集。競賽訓練集包括:

除了目標檢測賽道(google ai open images - object detection track)之外,比賽還包括視覺關係檢測賽道(google ai open images - visual relationship track),用於檢測特定關係中的物體對。例如「女人彈結他」,「桌上的啤酒」,「車內的狗」,「男人拿著咖啡」等等。大家可以在此處(找到有關資料集的更多資訊。這是乙個很棒的資料集,在上邊的鏈結中你會發現它的豐富性。在這裡(大家可以看到資料集全部600個類別的層次結構關係。大家可以觀察到這是乙個不均勻且非常廣泛的類別分布。這意味著大家不能天真地統一對待所有類別做處理,大家需要考慮到類別的分布。這一點也更加貼近人們現實世界中的場景。這個資料集的以上特性無疑使我們更接近於建立對於自然場景更魯棒的模型。

這個挑戰賽的獎品也非常誘人,不但有著目標檢測賽道30,000美元與視覺關係識別20000美元的獎金池,此外挑戰賽的結果還會在2023年歐洲計算機視覺會議(eccv2018)的研討會上公布。eccv2018將在德國慕尼黑舉行。

這個比賽是在kaggle上舉辦的,很讚。挑戰的核心(kernel)往往最終成為從競爭對手看到不同方法的知識**。如此大規模且複雜的挑戰很有希望帶來可以應用於計算機視覺領域的最佳研究與一些新想法,就像imagenet一樣。

希望大家在這場激烈的比賽中學到了一些新的和有用的東西,並對計算機視覺和ai的未來感到興奮。

[1]目標檢測(google ai open images - object detection track):

[2]視覺關係識別(google ai open images - visual relationship track):

軟體的大規模生產

很多人都幻想軟體可以工廠化,流水線化生產,但是這一天卻從來沒有到來。軟體和工廠模式的不同在於軟體是研發出來,而工廠是研發出來後,持續生產。工廠中的生產階段是重點,而軟體的生產階段只需要複製複製,可以忽略不計。所謂的流水線指的是工廠的生產階段,所以軟體很難出現所謂的流水線。那麼軟體是不是無法擴大規模,...

大規模SfM的Cut Expand

expand 判斷cluster的大小。若cluster的image的數目足夠小,不進行任何操作,返回cluster cluster的大小可以進行cut,對cluster進行normalized cut,返回每個image及其所屬的cluster id 將image分配到clustered的chil...

軟體的大規模生產

很多人都幻想軟體可以工廠化,流水線化生產,但是這一天卻從來沒有到來。軟體和工廠模式的不同在於軟體是研發出來,而工廠是研發出來後,持續生產。工廠中的生產階段是重點,而軟體的生產階段只需要複製複製,可以忽略不計。所謂的流水線指的是工廠的生產階段,所以軟體很難出現所謂的流水線。那麼軟體是不是無法擴大規模,...