演講稿丨徐偉人類離實現通用人工智慧還缺少什麼

人工智慧這個概念最近幾年非常火，我們看到人工智慧傳統的一些研究方向，像計算機視覺，還有語音識別，這些方面在最近幾年都有了過去幾十年不可想象的巨大進展。尤其是上個月googel的alphago和李世石下的那盤棋以後，更是激起了大家對人工智慧高度的熱情。為什麼人工智慧在最近幾年有快速的發展呢？乙個最重要的原因就是我們通過了幾十年的積累，我們現在已經有了非常可觀的計算能力，同時在這個計算能力的基礎上，可以在乙個可接受的時間內處理大資料。我們最近幾年因為深度學習的發展，給我們提供了乙個非常靈活的，非常具有建模能力的學習系統，正是因為這兩者的結合，它能夠把我們大資料後面蘊藏各種豐富複雜的關係，能夠把它提取出來。從而成為我們人工智慧快速前進的巨大推動力。

另外也提供了非常靈活的建模表達能力，能非常方便地根據他應用的需求，配置出不同的深度學習的模型。比如說乙個迴圈網路，或者是處理影象的卷積網路，任何靈活的組合都可以在我們這個平台上面很方便的配置出來。

還有像其他一些影象識別的任務，在最近幾年也都有了非常快速的進步。比如說細粒度影象識別，在一類物體裡面我們還要區分它子類，比如說在狗裡面要區分各種不同的狗。這樣的任務實際上是比更普通的物體識別更難，因為要對物體細緻的特徵有區分。這樣乙個任務上在2023年的時候，我們最好的系統錯誤率都還是50%，到了2023年錯誤率就降到20%，可到今年最新的結果錯誤率就降到10%幾。像這種細粒度的物體是別人是很困難的，人是很難認識200多種狗的。

下面我們談一些語言方面用深度學習的進展。我們知道其實語言是人類智力的核心的體現。我們是用深度學習的思想來處理語義理解的任務。傳統在語義理解的任務裡面，基本上是要分好幾步走的過程。首先要通過詞法解析、語法解析，然後構造各種人為的特徵，然後得出語義分析的結果。深度學習的理念就是端到端的，從最原始的資料開始的，這裡就是乙個詞的序列開始的，我們不考慮任何的人為的特徵構建，就直接用乙個完整的模型，得出我們想要的結果。我們人對這個問題的理解，主要是體現在我們模型的結構當中。這樣的思想，過去幾年在影象識別、語音識別裡面都給他們帶來了巨大的提公升。我們在語音理解這樣的任務裡面，也做到了比傳統方法好的結果。

另外乙個非常好的，端到端的深度學習，在自然語言處理裡面非常成功的應用，就是機器翻譯。端到端的機器翻譯的做法，是2023年的google首次提出來了，因為是乙個新方法，大家認為很有潛力的。但是剛提出來的時候還是比傳統的方法有明顯的差距。但僅僅過了一年以後，就能夠達到了傳統方法的質量。今年的結果已經比傳統的方法好了。一旦我們用好了以後，就可以對它各種效果有非常快速的提公升。

除了語言其實最近和語言相關的比較熱點的研究方向，就是把語言理解還有影象識別，語言生成這些傳統的人工智慧比較隔離的研究方向，有機的組合起來，用乙個完整的深度學習模型來處理。通過這樣的乙個整體的模型，我們機器就可以比較更自然的學到語言和它感知到的物理世界的聯絡。

深度學習最近還有乙個事，就是現在向更深的模式發展。在去年影象識別比賽上面，我們看到獲獎最好的乙個模型是微軟開發的深度達到150多層的深度模型。另外我們在翻譯上也發現，隨著模型深度的不斷加深，翻譯效果也是變得越來越好。

深度學習最近還有另外一些研究的熱點，就是所謂的推理、注意力、記憶，這方面是偏向於人類認知能力的，希望把這樣的一些機制能放在深度學習能力模型裡面來。特別是在這裡面注意力這樣的機制，在一些實際的應用裡面也取得了非常好的效果，比如細粒度的影象識別，或者翻譯的任務。像記憶的機制，現在還是比較初期的階段。

深度學習給ai帶來了快速的進展，但我們還有很多的路要走。人工智慧這個概念是2023年的時候john mccarthy提出的，同時還有3位重量級的研究人物。他們說了要用10個月花兩個月時間，對人工智慧做乙個非常巨大的進步，實際上我們現在看到他這個是遠遠低估了人工智慧的難度。現在的人工智慧還有很多的缺陷，人類智慧型乙個最核心的點就是自我學習和創造的能力，我們看到現在有很多具體的智慧型的系統，比如說alphago，它還缺乏一種自我學習和創造的能力。比如說來了乙個新的棋給他學，還需要大量的人參與工作，才可以改造。而人就不需要，人可以自己主動的學習各種新的任務。

最重要的一點就是說現在人工智慧還缺少一種從少量標註資料學習的能力，乙個例子比如說影象識別，imagenet裡每個物體種類有幾百幅圖，乙個小孩要認識一種東西可能幾幅圖足夠了。還有英法翻譯的訓練資料，人可能需要幾萬個小時能閱讀完，但如果你是說英語的，掌握法語的話可能只需要幾百小時。所以看到現在的深度學習缺乏少量標註學習的能力。

那麼最核心的一點就是我們需要有對環境的乙個非常好的表示，就是說我們需要通過非常大量的資料太能學習出來，非監督學習的機制，才能讓我們有效的利用到大量的非標註的資料，進行非監督學習方式的乙個最行之有效的方法，就是用它來**未來。我們知道**未來的能力是人智力的核心體現。比如說物理學是乙個對簡單系統的**，人類的智力包括機器學習，是乙個複雜系統的近似**。如果我們通過這種**未來的學習方式，就可以有效的掌握環境的規律，所以得到有效的表示。

我們現在的人工智慧系統缺乏常識，剛才李院士也講了很多的自動車，我們在座的很多人開車可能開幾百公里就非常好了。但大家知道我們現在最好的google的自動駕駛車，現在已經開了超過了200多萬公里，但既使是這樣，現在還是不能夠去駕車。最核心的問題是缺乏一種像人這樣的常識，就是說它遇到很多路況對人是非常簡單的，人看到就知道怎麼做。但機器缺乏常識性的理解，就只能通過人一條一條把每種路況匯入系統裡去。要想解決這樣的問題，我覺得有效的方式就是放到真實的環境裡面學習，像這樣的概念最近在facebook和微軟也提出了這樣的想法，他們提出創造乙個虛擬的模擬環境，讓人工智慧體在這個環境中自己去探索，然後就可以在這樣和環境的互動中，就能比較有效的建立它常識一樣的東西。

還有另外乙個主要的侷限之處，就是通過資料來學習。我們現在所有的東西首先要考慮蒐集資料。我們人來學習，比如說要區分這樣兩種不同的鳥，需要收集大量的資料，從資料裡面自動總結出規律出來。實際上我們人會告訴他，可以看到這兩個圖的區別，人可以用非常精煉的語言告訴其他人。而現在的機器學習還非常缺少有效的能夠利用人的知識的途徑。

我認為如果要解決這樣的問題，我們需要把語言作為機器學習系統乙個基礎的能力，否則的話我們就很難做到能夠把人類大量的知識傳遞到機器裡面去，然後同時來說我們需要這個機器能夠理解語言，這樣我們才能夠表達人類的需求，能夠幫助他的理解。旁邊這就是乙個電影裡面的人在教機械人來學習讀書。

我們要做真正像人這樣的非常強大的人工智慧，可能我們需要從最基礎的東西開始做起。我們需要做的是像幼兒一樣，讓他自主在乙個環境裡面去學習感知，學習他的行動的一些基礎的技能，同時把學習語言作為乙個最核心的東西，包含在這樣的乙個系統裡面。這些就是大概我的分享，我們還有非常多的困難，但是我覺得也給我們帶來非常多的機會，我也希望有更多人和我們一起探索人工智慧非常有意思的問題，去創造我們人工智慧的未來，謝謝大家。

本文**於"中國人工智慧學會",原文發表時間"

2016-04-28"

演講稿丨徐偉人類離實現通用人工智慧還缺少什麼

公升學宴演講稿

經典的演講稿

根叔演講稿

演講稿丨徐偉 人類離實現通用人工智慧還缺少什麼

公升學宴演講稿

經典的演講稿

根叔演講稿

相關推薦

演講稿丨徐偉人類離實現通用人工智慧還缺少什麼