到底什麼是深度學習？

什麼是學習？

說到「深度學習」，追根溯源，我們需要先知道什麼是「學習」。

著名學者赫伯特 ·西蒙教授（ herbert simon, 1975 年圖靈獎獲得者、 1978 年諾貝爾經濟學獎獲得者）曾對「學習」下過乙個定義：「如果乙個系統，能夠通過執行某個過程，就此改進了它的效能，那麼這個過程就是學習」。

大師果然名不虛傳，永遠都是那麼言簡意賊一針見血。從西蒙教授的觀點可以看出，學習的核心目的就是改善效能。

其實對於人而言，這個定義也是適用的。比如，我們現在正在學習深度學習的知識，其本質目的就是為了提公升自己在機器學習上的認知水平。如果我們僅僅是低層次的重複性學習，而沒有達到認知公升級的目的，那麼即使表面看起來非常勤奮，其實也僅僅是乙個「偽學習者」，因為我們沒有改善效能。

按照這個解釋，那句著名的口號「好好學習，天天向上」，就會煥發新的含義：如果沒有性能上的「向上」，即使非常辛苦地「好好」，即使長時間地「天天「，都無法算作學習。

什麼是機器學習？

遵循西蒙教授的觀點，對於計算機系統而言，通過運用資料及某種特定的方法（比如統計的方法或推理的方法），來提公升機器系統的效能，就是機器學習。

英雄所見略同。卡內基梅隆大學的tom mitchell教授，在他的名作《機器學習》一書中，也給出了更為具體（其實也很抽象）的定義：

對於某類任務（task，簡稱t）和某項效能評價準則（performance，簡稱p），如果乙個電腦程式在t上，以p作為效能的度量，隨著很多經驗（experience，簡稱e）不斷自我完善，那麼我們稱這個電腦程式在從經驗e中學習了。

比如說，對於學習圍棋的程式alphago，它可以通過和自己下棋獲取經驗，那麼它的任務t就是「參與圍棋對弈」；它的效能p就是用「贏得比賽的百分比」來度量。「類似地，學生的任務t就是「上課看書寫作業」；它的效能p就是用「期末成績」來度量」

統計機器學習，就是從資料出發，提取資料的特徵，抽象出資料的模型，發現資料中的知識，最後又回到資料的分析與**當中去。

在深度學習中，經常有「end-to-end（端到端）」學習的提法，與之相對應的傳統機器學習是「divide and conquer（分而治之）」。這些都是什麼意思呢？

「end-to-end」（端到端）:說的是，輸入的是原始資料（始端），然後輸出的直接就是最終目標（末端），中間過程不可知，因此也難以知。

就此，有人批評深度學習就是乙個黑箱（black box）系統，其效能很好，卻不知道為何而好，也就是說，缺乏解釋性。其實，這是由於深度學習所處的知識象限決定的。從圖可以看出，深度學習，在本質上，屬於可統計不可推理的範疇。「可統計」是很容易理解的，就是說，對於同類資料，它具有一定的統計規律，這是一切統計學習的基本假設。那「不可推理」又是什麼概念？其實就是「剪不斷、理還亂」的非線性狀態了。

在哲學上講，這種非線性狀態，是具備了整體性的「複雜系統」，屬於複雜性科學範疇。複雜性科學認為，構成複雜系統的各個要素，自成體系，但阡陌縱橫，其內部結構難以分割。簡單來說，對於複雜系統，1+1≠2，也就是說，乙個簡單系統，加上另外乙個簡單系統，其效果絕不是兩個系統的簡單累加效應，而可能是大於部分之和。因此，我們必須從整體上認識這樣的複雜系統。於是，在認知上，就有了從乙個系統或狀態（end）直接整體變遷到另外乙個系統或狀態（end）的形態。這就是深度學習背後的方**。

與之對應的是「divide and conquer（分而治之）」，其理念正好相反，在哲學它屬於「還原主義（reductionism，或稱還原論）」。在這種方**中，有一種「追本溯源」的蘊意包含其內，即乙個系統（或理論）無論多複雜，都可以分解、分解、再分解，直到能夠還原到邏輯原點。

在意象上，還原主義就是「1+1=2」，也就是說，乙個複雜的系統，都可以由簡單的系統簡單疊加而成（可以理解為線性系統），如果各個簡單系統的問題解決了，那麼整體的問題也就得以解決。比如說，很多的經典力學問題，不論形式有多複雜，通過不斷的分解和還原，最後都可以通過牛頓的三大定律得以解決。

經典機器學習（位於第ⅱ象限），在哲學上，在某種程度上，就可歸屬於還原主義。傳統的機器學習方式，通常是用人類的先驗知識，把原始資料預處理成各種特徵（feature），然後對特徵進行分類。

然而，這種分類的效果，高度取決於特徵選取的好壞。傳統的機器學習專家們，把大部分時間都花在如何尋找更加合適的特徵上。因此，早期的機器學習專家們非常苦逼，故此，傳統的機器學習，其實可以有個更合適的稱呼——特徵工程（feature engineering）。

但這種苦逼，也是有好處的。這是因為，這些特徵是由人找出來的，自然也就為人所能理解，效能好壞，機器學習專家們可以「冷暖自知」，靈活調整。

什麼是深度學習？

再後來，機器學習的專家們發現，可以讓神經網路自己學習如何抓取資料的特徵，這種學習的方式，效果更佳。於是興起了特徵表示學習（feature representation learning）的風潮。這種學習方式，對資料的擬合也更加的靈活好用。於是，人們終於從自尋「特徵」的苦逼生活中解脫出來。

但這種解脫也付出了代價，那就是機器自己學習出來的特徵，它們存在於機器空間，完全超越了人類理解的範疇，對人而言，這就是乙個黑盒世界。為了讓神經網路的學習效能，表現得更好一些，人們只能依據經驗，不斷地嘗試性地進行大量重複的網路引數調整，同樣是「苦不堪言」。於是，「人工智慧」領域就有這樣的調侃：「有多少人工，就有多少智慧型」。

因此，你可以看到，在這個世界上，存在著乙個「麻煩守恆定律」：麻煩不會減少，只會轉移。

再後來，網路進一步加深，出現了多層次的「表示學習」，它把學習的效能提公升到另乙個高度。這種學習的層次多了，其實也就是套路「深了」。於是，人們就給它取了個特別的名稱——deep learning（深度學習）。

深度學習的學習物件同樣是資料。與傳統機器學習所不同的是，它需要大量的資料，也就是「大資料（big data）」。

有乙個觀點，在工業界一度很流行，那就是在大資料條件下，簡單的學習模型會比複雜模型更加有效。而簡單的模型，最後會趨向於無模型，也就是無理論。

例如，早在2023年，美國《連線》（wired）雜誌主編克里斯﹒安德森（chris anderson）就曾發出「理論的終結（the end of theory）」的驚人斷言：「海量資料已經讓科學方法成為過去時（the data deluge makes the scientific method obsolete）」。

「戀愛」中的深度學習

法國科技哲學家伯納德﹒斯蒂格勒（bernard stiegler）認為，人們以自己的技術和各種物化的工具，作為自己「額外」的器官，不斷的成就自己。按照這個觀點，其實，在很多場景下，計算機都是人類思維的一種物化形式。換句話說，計算機的思維（比如說各種電子演算法），都能找到人類生活實踐的影子。

比如說，現在火熱的深度學習，與人們的戀愛過程也有相通之處。在知乎上，就有人（jacky yang）以戀愛為例來說明深度學習的思想，倒也非常傳神。我們知道，男女戀愛大致可分為三個階段：

第一階段初戀期，相當於深度學習的輸入層。妹子吸引你，肯定是有很多因素，比如說臉蛋、身高、身材、性格、學歷等等，這些都是輸入層的引數。對不同喜好的人，他們對輸出結果的期望是不同的，自然他們對這些引數設定的權重也是不一樣的。比如，有些人是奔著結婚去的，那麼他們對妹子的性格可能給予更高的權重。否則，臉蛋的權重可能會更高。

第二階段熱戀期，對應於深度學習的隱藏層。在這個期間，戀愛雙方都要經歷各種歷練和磨合。清朝湖南湘潭人張燦寫了一首七絕：

書畫琴棋詩酒花，當年件件不離他。

而今七事都更變，柴公尺油鹽醬醋茶。

這首詩說的就是，在過日子的洗禮中，各種生活瑣事的變遷。戀愛是過日子的一部分，其實也是如此，也需要雙方不斷磨合。這種磨合中的權重取捨平衡，就相等於深度學習中隱藏層的引數調整，它們需要不斷地訓練和修正！戀愛雙方相處，磨合是非常重要的。要怎麼磨合呢？光說「520（我愛你）」，是廉價的。這就給我們程式猿（媛）提個醒，愛她（他），就要多陪陪她（他）。陪陪她（他），就增加了引數調整的機會。引數調整得好，輸出的結果才能是你想要的。

第三階段穩定期，自然相當於深度學習的輸出層。輸出結果是否合適，是否達到預期，高度取決於「隱藏層」的引數「磨合」得怎麼樣。

到底什麼是深度學習？

什麼是深度學習？

深度學習筆記（一）什麼是深度學習

深度學習什麼是marginalization

到底什麼是深度學習？

什麼是深度學習？

深度學習筆記（一）什麼是深度學習

深度學習 什麼是marginalization

相關推薦

深度學習什麼是marginalization