孫劍親自撰文我在 Face 的這半年

2023年，就我個人來講，所做出的最重大抉擇，就是在已經工作了十三年的微軟研究院（以下簡稱msr），和乙個成立不過幾年的創業公司——face++曠視科技（以下簡稱face++）之間，選擇了後者，並且以首席科學家身份加入。

「過的怎麼樣？」、「face++和msr的研究部門一嗎？」、「face++是如何開展研究工作的？……」等等。

問題或大或小，但大多諸如此類。值此新年之際，我想把自己這半年來的觀察與思考與大家分享一下，權且當作對各位關心的答謝。

就我的觀察與體驗，兩家公司研發部門的本質是幾乎沒有差別的。什麼叫乙個公司的研發部門本質呢？我認為有三個要素極其關鍵：使命定位、人員組成和研發方式。坦白來講，從這三點審視，我在兩邊看到了驚人的一致性，也就是說：

1）他們都同樣有著既基於產品，又探索前沿技術的使命定位；

2）他們都同樣聚集著一群追求極致，有geek精神，且高自我驅動的精英；

3）他們都用同樣的套路推進研究工作：確定問題–>實現、研究和理解既有方法–>進行持續改進或創新。

當然，即便兩邊研究部門的本質相同，也必然會存在著不同之處，畢竟每個公司都有其特定的文化與管理模式。當我身邊的戰友們從平均年齡三十多歲直降十歲的那一天突然來臨時，我一方面感覺自己好像在瞬間邁入中老年的行列中（講個梗：今天一名同事問我為什麼把手機字型調的那麼大），另一方面覺得自己充滿了幹勁，同時還有乙份沉甸甸的責任感。

這裡還隱含著乙個認識上的誤區，就是在我們公司被廣泛稱為face++之後，越來越多的人誤以為face++嘛，只是在做人臉技術。人臉，目前確實是乙個商業前景廣闊，玩法花樣不斷翻新的應用。但是，face++從創立第一天就聚焦在人工智慧的三大應用領域之——計算機視覺，是以一系列視覺識別（人臉、人、物體、文字、場景、行為等）問題為中心，研發核心演算法，打造能落地的產品。消除了這樣乙個誤區，你會比較好理解，為什麼face++要用「power human with ai」作為使命，用「人工智慧技術造福大眾」，來發願。畢竟公司的全名是叫曠視（英文叫megvii, 取自mega vision)，也就是大的視覺。

回到問題本身，目前我們主要在集中研究四個視覺理解核心問題（見下圖）：影象分類、物體檢測、語義分割、和序列學習。研究的技術路線是徹徹底底的深度學習：1）使用深度神經網路；2）盡最大可能使用端到端（end-to-end）學習。face++應該說是這波兒人工智慧創業公司當中最早研究並應用深度學習的。

影象分類是最基礎的問題。這個問題自身就有廣泛的應用（例如人臉識別和場景分類），也是研究其他問題的根基。深度學習的出現使得我們從以往的特徵設計走向了網路結構設計，這裡包含很多對問題的深刻理解、實踐中總結的經驗和原理、優化演算法的探索、和對下一步技術發展的判斷。

我們的研發部門裡有乙個專門的小組負責研究如何訓練最好的基礎神經網路，並沿著以下三個子問題深入：

1）針對不同計算複雜度下設計最優的神經網路；

2）針對不同計算平台的實際要求，來設計最高效的網路；

3）針對不同問題設計最合適的網路。

另外對神經網路模型的壓縮和低位元化表示也是我們研究的重點之一。

物體識別是解決感知影象中**有什麼物體的問題。

我們關心的若干子問題是：

1）如何有效地解決遮擋問題。這個問題對人來說好像是很容易的，但其實涉及到了人腦中對不可見部分自動做聯想和補充的能力，已經部分屬於人類的認知智慧型能力範疇；

語義分割就是對每個畫素分類，這是乙個更為精細的分類任務。

比如說把識別出來的人體分割成具體部位，把人臉分割成五官，把場景分成藍天、建築、道路和物體等。目前在這個問題上統治性的方法是berkeley在2023年提出的全卷積網路（fcn）。這個方法使得神經網路具有了有強大的結構化輸出能力，進而將深度學習有效地推進到很多中期和初期視覺理解（例如立體匹配和光流計算）問題上。我當年博士**就是在研究初期視覺中的立體匹配問題，十幾年後的方法發生了根本性的變化，當年是想也不敢想的。我們研發部門的一名實習生在最近的cvpr投稿中設計了乙個簡單有效的fcn模型，在公開評測集上取得了非常好的效果。

解決這三類問題的演算法在face++的產品中都有應用。目前解決這個問題的主流方法是遞迴神經網路（rnn），也是現在在語音識別和自然語言處理中的大殺器。由於人的智慧型本質是在實時的「處理」連續不斷感知到的訊號流，這使得序列學習成為當下的最熱的研究方向之一。尤其是最近引入外部記憶讀寫機制和執行單元的rnn，讓我看到了解決人工智慧不少難題的一絲曙光。face++的研究員們也正在這方面積極思考，積極實踐。

推進研究部門的工作，核心是培養人做事的能力，並給予最好的研發環境。

培養什麼人才？人才是研發的生命線。創造乙個良好的環境吸引人才，培養人才，留住人才是我們的第一優先順序。資訊學競賽(noi/ioi)和大學生程式設計競賽(acm/icpc)的選手們構成了研究部門的第一批戰士。我們後續更多的戰士來自五湖四海，擁有相當不同的背景：既有以前做視覺的，也有以前做機器學習的，既有研究基本問題的，也有專注特定應用的。

乙個多樣性的環境也使得我們看問題的角度更全面。在這樣的基因下，我們大致將人才向兩個方向培養：研究科學家，和全棧人工智慧工程師。研究科學家主要聚焦在演算法上，尋求對問題的本質解，我們的培養目標是成為能獨擋一面領域專家；全棧人工智慧工程師是我們內部的叫法，目的是培養即能上九天攬月（演算法設計和訓練），又能下五洋捉鱉（演算法的工程化，研究問題和方式系統化）的全能戰士，他們既能做research,又懂system，能建系統、造輪子。針對目前ai發展的趨勢，我們需要大量的全能人才來將ai 「+」到不同的行業上，解決實際問題。這就對人才提出了更高的要求。我們相信即便沒有ai背景的工程師，在這裡工作1-2年後就能成為獨當一面的人才。

研發環境：做深度學習研究需要乙個非常高效的訓練引擎/平台和充沛的計算資源，face++內部使用了近兩年的「megbrain」是乙個全自主研發的訓練引擎，它與目前流行的tensorflow（google一年前發布）設計相似，同屬基於computing graph的新一代訓練引擎。為什麼非要自研系統呢？公司研究深度學習開展得非常早，當時還沒有很好用的系統，並且megbrain在同時滿足靈活性及精簡性的基礎上，能最大限度提公升工作效率。目前在ai創業公司中完全使用自研深度學習訓練引擎的，可能只有face++。

除了核心引擎，我們的體系結構組還搭建了乙個強大的深度學習平台brain++來管理我們龐大的gpu集群，來完成從資料標註和管理、模型訓練、gpu集群中心化管理、到產品化發布的「一條龍」自動化流程，從而使得我們的研發人員將寶貴的精力集中在問題上。這也使得來face++的實習生非常容易上手，即便對深度學習系統零基礎，一套簡單的教程讀過後2-3個星期就可以開始思考問題了。這些系統能夠建立得益於我們團隊內部的有不少「全棧人工智慧工程師」，他們不僅是深度學習方面的專家，更是系統和分布式計算方面的專家。

最後針對深度學習很大程度上得益於大規模訓練資料，我們還設有專門的團隊負責標註工具開發和完成大量資料標註任務。以前讀書時開玩笑的乙個**是「沒有不好的演算法，只有不好的資料」，datais king。

對於face++，我分享幾個數字：我們的人工智慧雲開放平台的api已經服務了近7萬開發者，已被呼叫 62 億次；身份認證平台目前已為1.2億人（注意不是1.2億次）提供了刷臉服務，覆蓋了85%的金融市場智慧型化應用；智慧型安防和智慧型商業產品也覆蓋到25個省。服務客戶、追求極致，不斷驅動著我們的前行。對於我自己，現在有著無比的自信能夠和face++的研發團隊一起，在這個最好的時代，做出更好的成績，追求研究之美！

【csdn_ai】熱衷分享

掃碼關注獲得更多業內領先案例

孫劍親自撰文我在 Face 的這半年

孫振耀撰文談退休並暢談人生

孫振耀撰文談退休並暢談人生等待

孫振耀撰文談退休並暢談人生結語

孫劍親自撰文 我在 Face 的這半年

孫振耀撰文談退休並暢談人生

孫振耀撰文談退休並暢談人生 等待

孫振耀撰文談退休並暢談人生 結語

相關推薦

孫劍親自撰文我在 Face 的這半年

孫振耀撰文談退休並暢談人生等待

孫振耀撰文談退休並暢談人生結語