你會心動嗎?ICPR 2018 MTWI挑戰賽開啟

2021-09-20 14:18:27 字數 1258 閱讀 5304

網際網路世界中,是傳遞資訊的重要媒介。特別是電子商務、社交、搜尋等領域,每天都有數以億兆級別的影象在流動傳播。基於深度學習的文字識別(ocr)技術正飛速發展,並深刻影響著資訊的互動和傳遞方式,乃至改變相關行業的生產方式。而在學術領域,中的文字識別(ocr)同樣也是研究重點,但目前業內依舊缺少基於網路的、以中文為主的ocr資料集。

近期,由阿里巴巴「影象和美」團隊聯合華南理工大學共同舉辦icpr mtwi(multi-type web image)2018 挑戰賽正式開啟,並開放業內第乙個基於網路的中英混合資料集——mtwi資料集。大賽聚焦ocr領域相關實用知識點的突破與解決,旨在與全球ai科研人才一起共同推動ocr在工業界的應用和發展。

本次大賽發布的mtwi資料集**於真實網路場景,以「**於實踐,且高於實踐」為構建理念,既考慮到學術價值同時也兼顧工業適用性。

不同於純文件和場景文字,mtwi資料集中的多為作者設計或者二次加工所得。整體上看,這類不僅包含部分場景和文件,更多的是在這些基礎上新增設計好的文字而成的新。

左一:空心字,切斷字,中英混排 /左二:封面印刷文字,離散單字,重疊字/左三:實拍,自然場景,藝術文字/左四:大字中鑲嵌小字,不同字型大小混排

從資料場景上看,本資料集涵蓋了數碼合成、物體表面、封面類印刷的中英文以及少量日文、韓文等型別的文字。而從文字版式上來看,包含了各種字型型別的單字、橫排、豎排、傾斜排列、曲線排列、複雜混排(不同字型大小、不同字型、不同字間距的混合排布)等。

因此,本次大賽發布的資料集既有文字識別的共性也有本身的特性,突出覆蓋前沿技術尚未解決或者遺漏的樣例,並基於ocr領域乃至計算機視覺領域的前沿指標,設定文字檢測,文字行識別,端到端的整**字識別三個層次的賽題,對相關技術點的解決以及在工業領域的資訊數位化應用將具有直接的推動作用。

本次icpr mtwi 2018 挑戰賽基於天池資料眾智平台,目前已開啟報名通道,吸引了來自國內外2000餘支隊伍報名參賽,其中不乏ocr研究領域的知名院校團隊。賽事組委會將在2023年6月1日評出獲獎名單,並於icpr2018大會期間在北京進行頒獎。

原文發布時間為:2018-04-4

**技術」,了解相關資訊可以關注「

這樣表白,會不會心動?

這樣表白,會不會心動?表白可是一種語言藝術,說得不好,妹子撒腿就跑。要是說的妙,那可是妹子懷裡抱,今天就教大家幾招 1.i fall in love with you at first sight.我對你一見鐘情。fall in love with somebody.愛上某人 at first si...

舞會心動男 女生配對問題

今天,在冬木市舉行了一場盛大的舞會。參加舞會的有n 位男士,從 1 到 n 編號 有 m 位女士,從 1 到 m 編號。對於每一位男士,他們心中都有各自心儀的一些女士,在這次舞會中,他們希望能與每一位自己心儀的女士跳一次舞。同樣的,對於每一位女士,她們心中也有各自心儀的一些男士,她們也希望能與每一位...

10個你看了會心疼的句子

1 有些事,我們明知道是錯的,也要去堅持,因為不甘心 有些人,我們明知道是愛的,也要去放棄,因為沒結局 有時候,我們明知道沒路了,卻還在前行,因為習慣了。2 以為蒙上了眼睛,就可以看不見這個世界 以為捂住了耳朵,就可以聽不到所有的煩惱 以為腳步停了下來,心就可以不再遠行 以為我需要的愛情,只是乙個擁...