深度學習 二

2021-10-08 02:47:49 字數 992 閱讀 6494

本篇主要涉及深度學習中相關的數學知識

講解的函式都是充分光滑的函式

嚴格定義:

假設如下:y軸是位移,x是時間,現在要求特定點的瞬時速度。直觀上摳出任意時刻的一點得到的瞬時速度為0,但是如果任意時刻都為0的話,那麼不就沒有位置變化了嗎?這個問題其實就是著名的飛矢不動悖論。

但我們知道單單摳出乙個點來談速度就是扯淡。因為根據速度的定義式:速度=位移/時間。所以對應單一時刻位移差為0,同時分母也為0,因此這個定義從數學上就沒有意義可言。但是具體到研究該過程中速度變化狀態,我們確不能用「未定義」或「無意義」把速度當成是「零」或「某個常數"。這個時候我們發現具體到乙個點,我們聚焦在它附近特別特別小的鄰域內,如圖二,直觀上我們就可以發現,再該鄰域內,運動軌跡」化曲為直「了。那麼對於該」線性「軌跡,我們知道做的是勻速運動,所以速度 = 位移差/時間差。這裡記位移差為ds,時間差為dt。通過這種思想,我們巧妙的得到了所謂的任意時刻的瞬時速度

其實,上面化曲為直、無限逼近具體時刻的思想就是極限以及微分的思想。嚴格嚴謹的數學定義就如上所示。

通過上面的講述,以後在談到具體某點導數時我們就要知道它表示的其實就是該點附近變化率的最佳近似

通過下圖,我們可以看到切線可以在切點附近很好的近似曲線。如果在曲線上多選幾個點,都作出附近的切線,我們可以透過切線看到曲線的輪廓。

因此導數就可以看作是「線性近似」的乙個數學工具,通過考察切線的性質來把握非線性函式的走勢。

深度學習(二)

將龐大的資料集分成許多個batch,遍歷這些batch,每個batch使用梯度下降法進行優化 如果batch的數目太大,則每次迭代的時間太長,如果batch的數目為1,則退化為隨機梯度下降法,這樣就喪失了向量化的加速作用,因此,需要合理選擇batch的數目,一般對於較大的資料集,選擇為64或128到...

深度學習二

一 過擬合及欠擬合及其解決方案 訓練誤差和泛化誤差 訓練誤差是指在訓練資料集上表現出的誤差,泛化誤差指的是模型在任意乙個測試資料樣本上表現出來的誤差的期望,並常常通過測試資料集上的誤差來近似。計算訓練誤差和泛化誤差可以用損失函式,例如線性回歸用到的平方損失函式和softmax回歸用到的交叉熵損失函式...

深度學習初探(二)深度學習框架

theano 是最早的深度學習框架之一,是乙個基於 python 語言 定位底層運算的計算庫,theano 同時支援 gpu 和 cpu 運 算。由於theano 開發效率較低,模型編譯時間較長,同時開發人員轉投tensorflow 等原因,theano 目前已經停止維護 scikit learn ...