從Clarifai的估值聊聊深度學習

**：

前幾天和 ayden @葉瀚中聊天時，提到了 www.

clarifai.com

這家公司。

此前，我已經從各方訊息中聽說過創始人matt zeiler最近打算賣公司。甚至還和朋友打賭說這個公司能不能以$5m出手。

先說結論：

這個公司的水準在13年稱得上世界第一。但是這並不能給該公司以世界級的價值。

clarifai創始人matt zeiler 是 new york university (nyu) rob fergus教授門下的學生。要知道，從上個世紀開始，nyu就一直是neural computation的重鎮。現在deep net的前身convnet，就是出自 nyu 的 yann lecun教授組。

matt在phd期間，還曾經在google跟jeff dean實習過。不知道有沒有學到什麼獨門絕技。總之，2023年image net challenge以來，他在computer vision圈子就非常出名了。

講到這裡就不得不提image net challenge。以前的computer vision的資料集都非常小，最多不過幾百類，幾萬張圖，這帶來乙個問題——我們無法設計特別複雜的計算視覺模型。否則模型的複雜度太高，資料量太少，就會有

overfitting

的問題。

2023年，華人教授李菲菲牽頭搞了乙個

巨大的資料庫

imagenet

。到今天為止，image net上已經有了14,197,122張了。對每張，由人來手工記錄中物體的名字，並向業界宣布，同學們，如果你們誰開發出來了新的物體識別演算法，就在我家的資料庫上試試吧。

於是2023年，就有了這個lsvrc - large scale visual recognition challenge. 最終比賽結果在2023年底的nips會議上公布。

當時，大多數的研究小組還都在用傳統computer vision演算法的時候，多倫多大學的hinton祭出deep net這樣乙個大殺器。差距是這樣的：

第一名deepnet的錯誤率是0.16422

第二名日本東京大學的錯誤率是0.2617

第三名牛津大學的錯誤率是0.2679

如果我們仔細看看第二名和第三名的實現，會發現大家使用的技術框架非常接近，都是local descriptor + feature compression這套。而在這套實現上，二者的差距幾乎是可以忽略的——都完全不是deep net的對手。

具體結果參見：

imagenet large scale visual recognition competition 2012 (ilsvrc2012)

說來也巧，我恰好也參加了nips 12，親身感受了這在後來看來的歷史時刻。hinton當時放話說：「如果你沒有參加前面十幾年的nips，沒關係，因為直到今年，deep net才真正work了」。雖然deepnet取得了如此矚目的成績，但是就在當時，還是有大量與會教授表示不願意接受deepnet。這裡面指的「不願意」分幾個層次

1. deepnet很可能是某種形式的overfitting，因為它裡面有6000萬個引數。

2. deepnet作為乙個黑盒子，不可解釋。所以對cv的貢獻非常有限

3. deepnet只能解決物體識別這乙個問題，而物體檢測、分割等經典問題還需要其他人的努力。

在1%的效能提公升都可以稱之為「major contribution」的時代，被乙個和最近10年computer vision，尤其是object recognition領域的進展幾乎沒有交集的方法，超過了10個百分點，這也難怪大家紛紛表示不承認也不接受deepnet的革命。但是，洪水的閘門已經開啟。。。

一年後，新一輪的large scale visual recognition challenge又開始了，這時候我們不難發現，deep net的計算框架已經一統江湖了：

imagenet large scale visual recognition competition 2013 (ilsvrc2013)

其中matt zeiler (

) 的演算法排名第一，在不用額外訓練資料的情況下，跑到了error rate 0.1174這樣的成績。

這個成績是這樣解讀的：

任選一張，扔給演算法，演算法返回5個結果。如果5個結果中，有乙個猜對了物體類別，就算正確。換言之，如果允許猜5次，clarifai已經有接近90%的準確率了。這裡的物體類別包括了英語中兩萬多個名詞，幾乎涵蓋了各大類別。

但是，2023年和2023年的情況又有很大不同。

排名第二的新加坡國立大學的誤差，是0.129，第三名zf的誤差是0.133，這都與clarifai非常接近。再也無法出現hinton組獨步江湖的場面了。

今年的結果還沒出來，要等到12月份的nips 2014啦。我聽到過一些小道訊息，在lsvrc 12的訓練集（因為測試集保密，所以線下研究的時候，大家都會闢出一部分訓練集做測試），某公司已經能跑到10%以內的誤差了。當然clarifai也沒閒著，在他主頁上已經更新了準確率到10.7%了。

那麼deepnet的難點在什麼地方呢？從最近cvpr 14的情況來看，圈子在這個方面作出的改進，幾乎見不到什麼質的飛躍。調整deepnet在大多數時候變成了一門實驗科學：一方面，對2023年原作的修改太大，會導致識別率慘不忍睹，另一方面，很少有人能有stefan mallat那樣的數學功底能從理論層面分析deep learning到底在幹什麼。但是，由於的資料量實在太大，站在工程角度上，如何能夠在幾周甚至幾天內完成幾百萬甚至上千萬的訓練，就是乙個非常非常技術的活兒了。

在工程實現方面，deepnet開山*****的一作alex krizhevsky已經開源了他的**

，並且又另起了乙個convnet2的專案

。必須提到的，是uc-berkeley trevor darrel的賈揚清，把他寫的deepnet開源了。

這個功能很全面，效能很高的deep net，不斷被大量的開發者完善。目前來看，它是最有希望成為deep net通用架構的乙個基礎框架。目前，基於caffe的識別誤差，已經降到0.131了——非常接近matt zeiler的結果。但是要注意，這些結果幾乎都是開源的。

換言之，一群有過幾年cv經驗的初創小團隊，基本都可以超過hinton 2023年的世界紀錄，與2023年matt zeiler的紀錄非常接近。這簡直讓我想起戰爭之王檢閱娃娃兵的片段：乙個本科生訓練出來的deepnet，和乙個有30年經驗的大學教授訓練出來的deepnet，其實並沒有區別。

有這麼個傳說，真假待考，權當八卦說說吧。當年hinton組在nips 12會場上，就被各家公司爭相競購。hinton帶著google/ms/baidu等公司的負責人，找了間屋子說我們團隊競拍，每次加價一百萬。後來嫌一百萬太慢，改加價兩百萬。再後來的故事，大家就都知道了。。。

但是http://

clarifai.com

的估價和hinton組被收購的故事又有所不同。一方面，hinton本人是當今世界上最傑出（哪怕是2023年deepnet火爆之前）的machine learning研究者，20多年前back propagation也是他的傑作，而且deepnet的正宗首創效應也不可忽視。另一方面，deepnet席捲整個cv圈子帶來的各種效應（比如開源），可能也是大家所始料不及的。

最後，一方面，我希望http://

clarifai.com分享

舉報

從Clarifai的估值聊聊深度學習

目前的估值安全嗎？

動畫中的插值器和估值器

從王者榮耀聊聊遊戲的幀同步

從Clarifai的估值聊聊深度學習

目前的估值安全嗎？

動畫中的插值器和估值器

從王者榮耀聊聊遊戲的幀同步

相關推薦