機器學習速成筆記(二) 訓練與損失

2021-08-29 23:49:52 字數 1117 閱讀 1515

訓練模型通過有標籤樣本來學習(確定)所有的權重和偏差的理想值。

損失是對槽糕**的懲罰,損失是乙個數值,模型的**完全正確,則損失為零,反之,模型的**越槽糕,損失越大。

平方損失:一種常見的損失函式,線性回歸模型就是使用該平方損失

均方誤差:每個樣本的平均平方損失,計算均方誤差,要算出所有樣本**的平方損失之和,除於樣本的數量

其中:prediction(x) 指權重和偏差和特徵集 x 的結合函式,計算出**值。

d 指多個有標籤樣本的資料集 (即 , , )。

m 指  d 有標籤樣本的數量。

雖然均方誤差常用於機器學習,但是它既不是唯一實用的損失函式,也不適用於所有模型的損失函式。常見的損失函式有對數損失函式,hingeloss0-1損失函式,絕對值損失函式。

機器學習系統將根據所有標籤重新評估所有特徵,為損失函式生成乙個新值,而該值又產生新的引數值。這種學習過程會持續迭代,直到該演算法發現損失可能最低的模型引數。通常,您可以不斷迭代,直到總體損失不再變化或至少變化極其緩慢為止。這時候,我們可以說該模型已收斂。 

在訓練機器學習模型時,首先對權重和偏差進行初始猜測,然後反覆調整這些猜測,直到獲得損失可能最低的權重和偏差為止。

梯度是乙個偏導數(對某乙個數進行求導)的向量,向量有大小和方向。梯度下降法是沿著負梯度的方向走,以便能找到最小損失。

隨機梯度下降法:可能一下子得到區域性最優解,收斂區域性最優解的過程更為複雜。

批梯度下降法:全域性最優解,遍布所有資料,引數更新很慢

小批量隨機梯度下降法: 每次使用部分樣本,可以減少引數更新次數。穩定收斂。

學習速率,梯度向量具有方向和大小。梯度下降法演算法用梯度乘以乙個稱為學習速率(有時也稱為步長)的標量,以確定下乙個點的位置。例如,如果梯度大小為 2.5,學習速率為 0.01,則梯度下降法演算法會選擇距離前乙個點 0.025 的位置作為下乙個點。

超引數,用於調整學習速率。

學習速率過小,會花費太長的時間學習。

學習速率過大,會在最底部 u  兩則來回隨意調換,永遠達不到最低點。

學習速率恰到好處。

部分理想的學習速率

注:所有的資料整理參考來自google速成ai課程

機器學習筆記 損失函式

在監督學習中,由給定的輸入x,通過模型 h x 出的的 值 y,與真實值y不可能完全一致,這時,採用乙個損失函式,或者是代價函式來表示這個 錯誤的程度 損失函式值越小,模型就越好,由於模型的輸入 輸出 x,y 是隨機變數,遵循聯合分布p x,y 所以損失函式的期望是 這個函式稱為期望損失或者是風險損...

機器學習速成課程MLCC(3) 如何降低損失

迭代方法 預計用時 10 分鐘 在本單元中,您將了解機器學習模型如何以迭代方式降低損失。迭代學習可能會讓您想到 hot and cold 這種尋找隱藏物品 如頂針 的兒童遊戲。在我們的遊戲中,隱藏的物品 就是最佳模型。剛開始,您會胡亂猜測 w1 的值為 0。等待系統告訴您損失是多少。然後,您再嘗試另...

谷歌機器學習速成課程 3降低損失 迭代方法

迭代學習可能會讓您想到 hot and cold 這種尋找隱藏物品 如頂針 的兒童遊戲。在我們的遊戲中,隱藏的物品 就是最佳模型。剛開始,您會胡亂猜測 w 1 w1 的值為 0。等待系統告訴您損失是多少。然後,您再嘗試另一種猜測 w 1 w1 的值為 0.5。看看損失是多少。哎呀,這次更接近目標了。...