機器學習崗位面試問題彙總之深度學習

自己結合網路內容總結，歡迎指正歡迎補充。

最新更新：20170624—版本2（增加22-28）

1.模式識別、機器學習、深度學習的區別與聯絡

模式識別：過去、程式/機器做智慧型的事、決策樹等

機器學習：熱點領域、給資料+學習資料

深度學習：前言領域、強調模型

2.早年神經網路被淘汰的原因

耗時、區域性最優、競爭對手、over-fitting、引數

3.深度學習的實質及其與淺層學習的區別

深度學習實質：多隱層+海量資料——>學習有用特徵—–>提高分類或**準確性

區別：（1）dl強調模型深度（2）dl突出特徵學習的重要性：特徵變換+非人工

4.神經網路的發展（背景之類的）

mp模型+sgn—->單層感知機（只能線性）+sgn— minsky 低谷 —>多層感知機+bp+sigmoid—- (低谷) —>深度學習+pre-training+relu/sigmoid

5.dl解決過擬合的方法

資料擴容、dropout技術

6.介紹dropout技術

修改神經網路本身來避免過擬合、訓練網路的一種trike。

步驟：repeat

為何會避免過擬合：訓練多個「半數網路」，隨著訓練的進行，大部分正確，小部分錯誤（不影響）

7.推導bp演算法

8.bp演算法為什麼不能適應於深度學習

bp為傳統多層感知機的訓練方法，<=5層

問題：（1）梯度越來越稀疏（梯度擴散<—-非凸目標函式）（2）區域性最小（3）一般，有標籤

note：解決其中區域性最小值的方法：（1）多組不同隨機引數，取最好引數（2）啟發式優化演算法：模擬退火或遺傳（3）隨機梯度下降

9.深度學習與傳統神經網路之間的區別與聯絡

聯絡：分層結構

區別：訓練機制（初始值）

10.介紹dnn（原理和應用）

dnn：深度神經網路，廣義上包含cnn，dbn，rnn等

優點：層數多，抽象能力強，模擬更複雜模型

應用：影象處理、語音識別、文字分類。。。

11.什麼是深度學習、深度學習的訓練過程是什麼

無監督預訓練(layerwise pre-training)+有監督微調（fine-tune）

過程：（1）自下而上非監督學習特徵（2）自頂向下有監督微調

12.深度學習常用方法

全連線dnn（相鄰層相互連線、層內無連線）：

autoencoder(盡可能還原輸入)、sparse coding（在ae上加入l1規範）、rbm（解決概率問題）—–>特徵探測器——>棧式疊加貪心訓練

rbm—->dbn

解決全連線dnn的全連線問題—–>cnn

解決全連線dnn的無法對時間序列上變化進行建模的問題—–>rnn—解決時間軸上的梯度消失問題——->lstm

13.rbm用途

（1）編碼、降維（2）得到權重矩陣和偏移量，供bp網路初始化訓練（3）可作為生成模型使用（4）可作為判別模型使用

14.介紹dbn

15.介紹cnn

重點：區域性感受域、權值共享

組成：卷基層、子取樣層（池化層）

訓練過程：不同小隨機數初始引數—->repeat

廣義上的優點：（1）識別位移、縮放及其他形式扭曲不變性的二維圖形（2）隱式從訓練資料中學習特徵（3）同一特徵對映面的神經元權值相同—–>課並行學習（4）區域性權值共享—->在語音識別、影象處理方面有優勢、更接近實際生物神經網路、降低網路複雜性、避免特徵提取和分類過程中的資料重建複雜度

較一般神經網路在影象處理方面的優點：（1）影象和網路拓撲更好吻合（2）特徵提取和模式分類同時進行，並同時在訓練中產生（3）權值共享—–>減少引數、結構簡單、適應性更強

應用：語音分析、影象識別等

公式推導之 inference：

公式推導之 bp：

16.cnn卷基層和pooling層的作用

卷積層：特徵提取

子取樣層/池化層：縮減輸入資料的規模

17.cnn和dbn有什麼區別

cnn是判別模型，dbn基於生成模型

cnn是區域性連線，dbn是全連線

18.介紹rnn

概念：廣義來說rnn是兩種人工神經網路的總稱：結構遞迴神經網路（recursive neural network）和迴圈神經網路/時間遞迴神經網路（recurrent neural network）。時間遞迴公升降網路的神經元之間連線構成有向圖，結構遞迴神經網路利用相似的神經網路結構遞迴構造更為複雜的網路結構，兩者訓練演算法不同，但屬於同一變體。

一般我們說的rnn是指時間遞迴神經網路

重點：同乙個神經網路單元不停處理不同的輸入值，而這些值是它自己產生的

缺點：長時間依賴問題，即時間距離較長時，會出現時間軸上的梯度消失現象，可以形象的理解為，比較容易忘事

應用：應為它老忘事，所以沒有改進為lstm的它並沒有什麼有價值的應用

19.介紹lstm及其變體

是一種特殊的迴圈神經網路，具有能夠學習的長期依賴能力

重點：cell

組成：cell（state引數，用來記錄），input gate, output gate, forget gate

訓練過程：前向傳播（input gate, forget gate, cell, output gate, cell output）+後向傳播（cell output, output gates, states, cells, forget gates, input gates）

優點：能夠解決長時間依賴問題

應用：自然語言處理、語音識別、手寫識別等

推導：列印資料

20.深度學習的優化問題，及各種優化演算法的區別

經典的：mbgd（小批量梯度演算法）

改進梯度演算法，使梯度更新更加靈活：momentum,nesterov

可以自適應學習率：adagrad，adadelta,rmsprop,adam,adamax,nadam

21.深度學習在推薦系統上可能有怎樣的發揮22.神經網路相比於lr、線性回歸的優勢

包含dnn

不包含dnn，即傳統神經網路：特徵提取抽象

23.梯度消失的原因

（1）sigmoid求導<=1/4

參考：（2）bp？

24.dnn常用的啟用函式有哪些，各有什麼特點

（1）sigmoid：易飽和（梯度消失），非0均值（2）tanh，改進了sigmoid的第二個缺點，即它是0均值的（3）relu，收斂快（不容易飽和），求梯度簡單（沒有指數計算，只需要閾值就可以），有稀疏特性。缺點是神經元容易壞死。

參考：25.什麼樣的資料不適合用深度學習？

（1）資料量小（2）沒有區域性相關性

26.什麼是共線性，跟過擬合有何關聯？27.cnn可應用與影象識別、語音識別、alphago等，這些不相關問題的共性是什麼？也就是說cnn為什麼可以應用在這幾個問題上？cnn又是通過什麼手段抓住了這些共性？

共性：都存在區域性與整體的關係（單詞與句子，一步棋和整個棋局）。（我自己想的（1）可以用cnn，（2）cnn有優勢）

cnn通過區域性感知、權值共享、池化操作。越來越抽象。

28.cnn什麼時候用local-conv？什麼時候用全卷積（每乙個點用同乙個filter）？

當資料集的區域性特徵之間具有較強相關性的時候，適合用全卷積。在不同的區域有不同的特徵分布時，適合用local-conv

參考

《統計學習方法》，李航

《神經網路與深度學習》，吳岸城

《機器學習》，周志華

《史丹福大學2014機器學習課程筆記》，andrew ng主講，黃海廣整理筆記

機器學習崗位面試問題彙總之深度學習

機器學習崗位面試問題彙總之 SVM

機器學習崗位面試問題彙總之總體性問題

深度學習崗位面試問題整理筆記

機器學習崗位面試問題彙總 之 深度學習

機器學習崗位面試問題彙總 之 SVM

機器學習崗位面試問題彙總 之 總體性問題

深度學習崗位面試問題整理筆記

相關推薦

機器學習崗位面試問題彙總之深度學習

機器學習崗位面試問題彙總之 SVM

機器學習崗位面試問題彙總之總體性問題