小議「資料開放」

2022-01-29 17:01:19 字數 2868 閱讀 4074

各位朋友,大家新年好。

2023年的第一天,我還是想繼續談談easypr。不過,今天我不想說**,也不想聊演算法,而是想想談談資料的事情。尤其是關於「資料開放」這個對於車牌識別系統未來發展至關重要的主題。

圖1 資料堂,乙個資料的交易**,裡面的車牌資料非常「昂貴」

乙個車牌識別系統的核心分為機器學習演算法與車牌訓練資料兩個部分。目前機器學習演算法已經相當成熟(有很多現成的開源庫可以使用),但是,資料仍然是乙個從0到1的問題。對於沒有資料的人來說,開發乙個車牌識別系統是「無公尺之炊」。而對於有資料的人來說,他們不想開發,也不願將之分享。於是車牌識別界進入了乙個怪圈:大量的人擁有資料但不利用這些資料,想利用這些資料的人找不到資料,而一些稍微能夠利用這些資料的人,則趕緊開發乙個系統,然後圈上一大筆錢,再然後把演算法閉源,資料閉源,不斷坐吃山空。從發展趨勢來說,這些是不利於中國的車牌識別系統長遠發展的。

我在六個月前發布了easypr這個開源車牌識別系統,意圖打破閉源體系的第一部分--**體系,但是第二部分--資料仍然是未解決的問題。從某種程度上來說,實現了**開源,那就ok了,為什麼還要需要做資料開源?根本原因在於,決定你系統好不好的,不是取決於演算法,而是取決於資料。這個論斷,已經在「從機器學習談起」裡論述過。在很多地方已經體現的非常明顯(例如搜尋引擎),在很多地方即將體現(例如金融與社交)。

隨著我對easypr工作研究的進一步深入,我越來越發現兩個重要的問題。乙個是訓練的資料永遠不夠,無法跟上演算法的需要,另乙個是不同識別系統使用的資料不同,無法進行比較。就第二點而言,哪怕是同乙個系統,不同人開發的演算法所針對的測試資料不一樣,都無法進行比較。因此,如果想從根本上改變目前車牌識別系統的效果,讓開源車牌識別系統可以發展的更加好,開放的資料集是必要的。這個資料集應該包括兩個部分:乙個是通用的測試系統效果的資料集用來橫向比較不同系統或者縱向比較新老演算法的區別差異,這些資料集不必非常多,但要有足夠大代表性以及區分度;另乙個是訓練用的資料集,這些資料集用來提供足夠多的訓練資料,這個資料集要足夠的大,足夠的全。

當然,要想收集這些資料是很困難的,尤其是乙個人的情況,但眾多集力就不會那麼困難了。假設乙個閉源的系統有100萬的訓練資料,那麼只要我們有1000個人,每個人貢獻1000張就可以超過它。但是,為了把大家的力量集合到一起,首先就不能基於商業目的。如果為了商業目的,那麼主流的思想是競爭與壟斷,而不是共享。因此必須非商業化。同時大家之間的關係應該是以學習,研究為主,這樣才能夠充分發揮網路協作的精神。

毫無疑問,我乙個人來是肯定不夠的。但即便是乙個團隊,也很難收集與處理這麼多的資料。因此,它應該是乙個眾籌專案。為了保證這樣的乙個過程,需要乙個合理的協議來約束。

這也是我在easypr中提出gdsl(general data share license,通用資料共享協議)的原因。相比開發乙個專案,完成乙個協議的困難更大。但這個過程相當有必要,因為這是開源車牌識別系統想在國內茁壯發展下去,基於資料分析的思想在國內能夠廣泛流傳的基石。乙個協議需要考慮多種因素,目前的協議也僅僅只是0.1版本,還有很多待完善的空間,歡迎任何有想法的朋友跟我交流。

從無到有的建立乙個協議的困難是難以想象的,而且也會拋棄掉很多前人的精華。基於他人的經驗才是「從機器學習談起」中智慧型的方式。如果前人已經有相似的協議,那麼拿來直接用是最好的了。既然是參考開源專案,自然首先看的就是開源協議,例如apache,mit,gpl等。但是,開源協議保護的物件一般是**,或者通過這些**產生的「work」(可以理解為訓練出的模型)。開源協議並沒有提及對資料的保護。那麼資料界是否已經有了成熟的開放資料相關的協議內容?國外有乙個開放資料的協議odl(裡面有不少借鑑的內容,但那個協議的保護物件主要是結構化資料,而非這種非結構化資料,再加上odl協議對「商業」友好。因此這是我起草乙個新協議的原因,當然這個新協議應該充分借鑑原先協議的優點。

圖2 odl官網,國外的很早提倡資料開放的乙個協議,其資料以格式化資料為主

imagenet通過嚴格的審核保證了資料的有效使用,但也因此限制了很多業餘開發者的機會。我決定讓gdsl協議面向業餘開發者友好。

圖3 imagenet,深度學習近年來的多項進展離不開imagenet裡的資料

綜合了以上的資訊,gdsl協議的乙個

初稿誕生了。在這個初稿中,借鑑了gpl協議的「傳染性」以及odl協議的「開放性」,同時,由於資料是網友「捐贈」過來的,因此資料的使用者擁有複製與分享的權利(但是商用目的仍然是不允許的)。對於資料的「商用」的解釋為通過這些資料牟利,例如像上文提到的「資料堂」那樣將資料兜售,或者將資料作為車牌識別產品的贈品(產品本身要收錢)。與之相對的是,資料的「非商業使用」則是例如通過機器學習演算法通過這些資料訓練出乙個模型或者系統,然後銷售這個模型,這個屬於gdsl協議允許的範疇。從這個角度上說,本協議鼓勵對於資料的研究利用,而不是對資料的轉賣。

當然,車牌有一定的私隱性,這也是前面若干資料擁有者不開放資料的乙個原因,因此gdsl協議對於資料的隱私有一定的處理要求與策略,具體可以看協議內部的說明。

最後,簡單介紹一下基於gdsl協議的「通用資料測試集」(gdts)和「開放共享資料集」。

「通用資料測試集」(gdts)是乙個包含各類車牌的資料集。它的目標是提供乙個判斷車牌識別系統的通用集合。因此,集合裡的**廣泛,包括各種環境下,不同角度裡,以及惡劣環境下的車牌。通過gdts,可以有效地對不同的車牌識別系統與演算法進行區分與評判。

「開放共享資料集」則包含海量的資料,它的主要目標是提供乙個機器學習演算法足夠充足的訓練資料。

未來的世界屬於資料的世界。

小議「資料開放」

各位朋友,大家新年好。2015年的第一天,我還是想繼續談談easypr。不過,今天我不想說 也不想聊演算法,而是想想談談資料的事情。尤其是關於 資料開放 這個對於車牌識別系統未來發展至關重要的主題。圖1 資料堂,乙個資料的交易 裡面的車牌資料非常 昂貴 乙個車牌識別系統的核心分為機器學習演算法與車牌...

資料中心小議

因為乙個小比賽,了解了一下資料中心方面的一些東西 1.原因 在雲計算和大資料應用促進下,資料中心建設迎來了乙個新的建設高潮,面對如此巨大的市場,傳統資料中心是 固態的 缺乏靈活性和擴充套件性。隨著業務的發展和應用的增加,傳統資料中心的弊端逐漸顯現 傳統的資料中心在部署建制時基本是 一專案一部署 和 ...

小議設計模式

1.設計模式的團隊裡面的人,會建立乙個單件多次 2.設計模式團隊裡面的人,會理解和熟練使用各種複雜的模式 我想表達的意思是,如果你的團隊裡面也是這中情況,你應該考慮的不是怎麼讓語言跟安全 加更多的type check 而是給那些經驗少的同事多培訓一下。有句話說的好,有好工具的傻瓜還是是傻瓜。說到這裡...