Pytorch 動手學深度學習(二)

2021-10-03 01:17:14 字數 721 閱讀 3672

學習安排如下:

task03:過擬合、欠擬合及其解決方案;梯度消失、梯度**;迴圈神經網路高階(1天)

task04:機器翻譯及相關技術;注意力機制與seq2seq模型;transformer(1天)

task05:卷積神經網路基礎;lenet;卷積神經網路高階(1天)

梯度消失部分,主要是協變數偏移、標籤偏移、概念偏移三個概念,第一次接觸;

迴圈神經網路以及過擬合部分比較容易理解;

第一次接觸encoder-decoder兩個概念,自動翻譯的核心,就是先將一句話編碼,然後通過解碼,得到新的語言,聽起來很玄,nlp還是要複雜很多的;

注意力機制,本質上是提取一段字元內值得注意的概念,比如說『主謂賓』,很簡單的一句話,但是每個單詞的重要性是不一樣的,注意力機制就是把這個理念給加上去;

transformer是在注意力機制和encoder-decoder上面的創新,感覺這些進化的神經網路都是玄學,很好用,但是解釋起來都很模糊。卷積神經網路那邊的googlenet還能勉強理解他的核心思想,transformer還不是很清楚,以後要花時間看看;

掌握了基本的卷積、池化概念,卷積神經網路越深,感受野就越大;

兩層3×3神經網路可以替代5×5神經網路,但是他的引數要少很多,同理越多的堆疊效果就越好,而且從**來看,效果不會變差太多;

alexnet、vgg這些神經網路,本質上是卷積神經網路的多層堆疊,包括殘差神經網路也是,大家都想讓神經網路越來越深以掌握更多的東西;

RNN 《動手學深度學習pytorch》

rnn存在的問題 梯度較容易出現衰減或 bptt 改進 gru 控迴圈神經 絡 捕捉時間序列中時間步距離較 的依賴關係 長短期記憶long short term memory 遺忘門 控制上一時間步的記憶細胞 輸入門 控制當前時間步的輸入 輸出門 控制從記憶細胞到隱藏狀態 記憶細胞 種特殊的隱藏狀態...

凸優化 《動手學深度學習pytorch》

指定義在凸集中的凸函式最優化的問題 儘管優化方法可以最小化深度學習中的損失函式值,但本質上優化方法達到的目標與深度學習的目標並不相同。優化方法目標 訓練集損失函式值 深度學習目標 測試集損失函式值 泛化性 1.區域性最小值 2.鞍點 鞍點是對所有自變數一階偏導數都為0,且hessian矩陣特徵值有正...

動手學深度學習PyTorch版 筆記彙總

pytorch的tensor,它可以是零維 又稱為標量或乙個數 一維 二維及多維的陣列。tensor自稱為神經網路界的numpy,它與numpy相似,二者可以共享記憶體,且之間的轉換非常方便和高效。不過它們也有不同之處,最大的區別就是numpy會把ndarray放在cpu中進行加速運算,而由torc...