深度學習 綜述前言

2021-06-28 01:09:42 字數 2284 閱讀 2273

深度學習革命:

近年來,深度學習(deep learning)直接嘗試解決抽象認知的難題,並取得了突破性的進展。深度學習引爆的這場革命,將人工智慧帶上了乙個新的台階,不僅學術意義巨大,而且實用性很強,工業界也開始了大規模的投入,一大批產品將從中獲益。

深度學習在幾個主要領域都獲得了突破性的進展:在語音識別領域,深度學習用深層模型替換聲學模型中的混合高斯模型(gaussian mixture model, gmm),獲得了相對30%左右的錯誤率降低;在影象識別領域,通過構造深度卷積神經網路(cnn)[3],將top5錯誤率由26%大幅降低至15%,又通過加大加深網路結構,進一步降低到11%;在自然語言處理領域,深度學習基本獲得了與其他方法水平相當的結果,但可以免去繁瑣的特徵提取步驟。可以說到目前為止,深度學習是最接近人類大腦的智慧型學習方法。

深層模型結構:

深度學習採用的模型為深層神經網路(deep neural networks,dnn)模型,即包含多個隱藏層(hidden layer,也稱隱含層)的神經網路(neural networks,nn)。深度學習利用模型中的隱藏層,通過特徵組合的方式,逐層將原始輸入轉化為淺層特徵,中層特徵,高層特徵直至最終的任務目標。

為什麼要構造包含這麼多隱藏層的深層網路結構呢?背後有一些理論依據:

不難發現,可以找到原始輸入和淺層特徵之間的聯絡,再通過中層特徵,一步一步獲得和高層特徵的聯絡。想要從原始輸入直接跨越到高層特徵,無疑是困難的。。這證實了人類神經系統和大腦的工作其實是不斷將低階抽象傳導為高階抽象的過程,高層特徵是低層特徵的組合,越到高層特徵就越抽象。

從淺層模型到深層模型:

淺層模型往往具有凸代價函式,理論分析相對簡單,訓練方法也容易掌握,取得了很多成功的應用。淺層模型的侷限性在於有限引數和計算單元,對複雜函式的表示能力有限,針對複雜分類問題其泛化能力受到一定的制約。深層模型恰恰可以克服淺層模型的這一弱點,然而應用反向傳播和梯度下降來訓練深層模型,就面臨幾個突出的問題[10]:

1.梯區域性最優。與淺層模型的代價函式不同,深層模型的每個神經元都是非線性變換,代價函式是高度非凸函式,採用梯度下降的方法容易陷入區域性最優。

2.梯度瀰散。使用反向傳播演算法傳播梯度的時候,隨著傳播深度的增加,梯度的幅度會急劇減小,會導致淺層神經元的權重更新非常緩慢,不能有效學習。這樣一來,深層模型也就變成了前幾層相對固定,只能改變最後幾層的淺層模型。

3.資料獲取。深層模型的表達能力強大,模型的引數也相應增加。對於訓練如此多引數的模型,小訓練資料集是不能實現的,需要海量的有標記的資料,否則只能導致嚴重的過擬合(over fitting)。

2023年,他在《science》上發表了一篇文章[1],掀起了深度學習在學術界和工業界的浪潮。這篇文章的兩個主要觀點是:

1.多隱藏層的人工神經網路具有優異的特徵學習能力,學習到的特徵對資料有更本質的刻畫,從而有利於視覺化或分類。

2.深度神經網路在訓練上的難度,可以通過「逐層初始化」(layer-wise pre-training)來有效克服,文中給出了無監督的逐層初始化方法。

逐層初始化的解釋:

給定原始輸入後,先要訓練模型的第一層,即圖中左側的黑色框。黑色框可以看作是乙個編碼器,將原始輸入編碼為第一層的初級特徵,可以將編碼器看作模型的一種「認知」。為了驗證這些特徵確實是輸入的一種抽象表示,且沒有丟失太多資訊,需要引入乙個對應的解碼器,即圖中左側的灰色框,可以看作模型的「生成」。為了讓認知和生成達成一致,就要求原始輸入通過編碼再解碼,可以大致還原為原始輸入。因此將原始輸入與其編碼再解碼之後的誤差定義為代價函式,同時訓練編碼器和解碼器。訓練收斂後,編碼器就是我們要的第一層模型,而解碼器則不再需要了。這時我們得到了原始資料的第一層抽象。固定第一層模型,原始輸入就對映成第一層抽象,將其當作輸入,如法炮製,可以繼續訓練出第二層模型,再根據前兩層模型訓練出第三層模型,以此類推,直至訓練出最高層模型。

逐層初始化完成後,就可以用有標籤的資料,採用反向傳播演算法對模型進行整體有監督的訓練了。這一步可看作對多層模型整體的精細調整。由於深層模型具有很多區域性最優解,模型初始化的位置將很大程度上決定最終模型的質量。「逐層初始化」的步驟就是讓模型處於乙個較為接近全域性最優的位置,從而獲得更好的效果。

表2 淺層模型和深層模型的對比

淺層模型有乙個重要的特點,需要依靠人工經驗來抽取樣本的特徵,模型的輸入是這些已經選取好的特徵,模型只用來負責分類和**。在淺層模型中,最重要的往往不是模型的優劣,而是特徵的選取的優劣。因此大多數人力都投入到特徵的開發和篩選中來,不但需要對任務問題領域有深刻的理解,還要花費大量時間反覆實驗摸索,這也限制了淺層模型的效果。

事實上,逐層初始化深層模型也可以看作是特徵學習的過程,通過隱藏層對原始輸入的一步一步抽象表示,來學習原始輸入的資料結構,找到更有用的特徵,從而最終提高分類問題的準確性。在得到有效特徵之後,模型整體訓練也可以水到渠成。

深度學習綜述

本文不會像科技 那樣,詳細囉嗦,而是按照解決問題的邏輯思路來寫,使得初學者有乙個全面的掌握。因為我也是在學習的過程中。本文就只用圖來說明,其他人已經寫的很多了,我只寫比較好看的。這篇文章參考了吳恩達老師的網易公開課和相關的 資料,權當做個筆記,所以沒有講到的及新的知識會在後續跟上。現在各種網路結構氾...

深度學習 Deep Learning 綜述

深度學習是ml研究中的乙個新的領域,它被引入到ml中使ml更接近於其原始的目標 ai。檢視a brief introduction to machine learning for ai 和 an introduction to deep learning algorithms.這篇綜述主要是介紹一些...

Deep Learning 深度學習綜述

鏈結 deep learning yann lecun,yoshua bengio geoffrey hinton,nature,2015 深度學習發展得益於計算能力提公升和資料量的增長,無需人工設計特徵,深度學習通過bp 反向傳播 來顯示機器將會如何根據前一層的表徵改變來計算每層表徵的內部引數,使...