最優化筆記

最優化筆記（上）

尋找能使損失函式值最小化引數w的過程。

評分函式（基於引數的函式對映）→損失函式（svm為分段性結構）→最優化（後兩者形式較穩定）。

對於svm分類器來說，由於max操作，損失函式存在一些不可導點，這些點使得損失函式不可微，梯度是沒有定義的，但次梯度依然存在且常常被使用。

假設x_train的每一列都是乙個資料樣本（如3073x50000）；y_train是資料樣本的類別標籤（如長度為50000的一維陣列）。

最優化可用策略：隨機搜尋，隨機本地搜尋，跟隨梯度。

最優化筆記（下）

梯度計算：數值梯度法，分析梯度法。

步長的影響：梯度指明了函式在哪個方向變化率最大，但沒有指明在這個方向走多遠，步長（學習率）是神經網路訓練中最重要的超引數之一。

損失函式每走一步就是要計算3073次損失函式的梯度，效率低。

梯度下降：程式重複的計算梯度然後對引數進行更新。

普通梯度下降：

小批量資料梯度下降：

採用小批量資料梯度下降的依據是訓練集中資料都是相關的，是對整個資料集梯度的近似，可以實現快速收斂，頻繁引數更新。極端情況每個批量中只有乙個資料樣本，叫做隨機梯度下降或線性梯度下降。小批量資料大小是超引數，實際很少用。

資料集中(x,y)是給定的，權重從乙個隨機數開始，且可以改變。前向傳播時，評分函式計算出類別的分類評分值並儲存在向量f中。資料損失計算的是分類評分f和實際標籤y之間的差異，正則化損失是乙個關於權重的函式。梯度下降過程中，計算權重梯度，實現引數更新。