學習任務 01

2021-09-10 07:06:22 字數 1285 閱讀 6657

線性回歸損失函式的極大似然推導:西瓜書公式3.4除了用最小二乘法以外,怎麼用極大似然推得?

一元線性回歸的引數求解公式推導:西瓜書公式3.7和3.8怎麼推來的?

多元線性回歸的引數求解公式推導:西瓜書公式3.10和3.11怎麼推來的?

線性回歸損失函式的最優化演算法:什麼是批量梯度下降、隨機梯度下降、小批量梯度下降?

參考材料:

(一)批量梯度下降(batch gradient descent,bgd)

批量梯度下降法是最原始的形式,它是指在每一次迭代時使用所有樣本來進行梯度的更新。從數學上理解如下:

優點:(1)一次迭代是對所有樣本進行計算,此時利用矩陣進行操作,實現了並行。

(2)由全資料集確定的方向能夠更好地代表樣本總體,從而更準確地朝向極值所在的方向。

缺點:(1)當樣本數目很大時,每迭代一步都需要對所有樣本計算,訓練過程會很慢。

(二)隨機梯度下降(stochastic gradient descent,sgd)

隨機梯度下降是每次迭代使用乙個樣本來對引數進行更新。使得訓練速度加快。

優點:(1)由於不是在全部訓練資料上的損失函式,而是在每輪迭代中,隨機優化某一條訓練資料上的損失函式,這樣每一輪引數的更新速度大大加快。

缺點:(1)準確度下降。由於即使在目標函式為強凸函式的情況下,sgd仍舊無法做到線性收斂。

(2)可能會收斂到區域性最優,由於單個樣本並不能代表全體樣本的趨勢。

(3)不易於並行實現。

(三)小批量梯度下降(mini-batch gradient descent, mbgd)

小批量梯度下降,是對批量梯度下降以及隨機梯度下降的乙個折中辦法。其思想是:每次迭代 使用 ** batch_size** 個樣本來對引數進行更新。

這裡我們假設 batchsize=10 ,樣本數 m=1000

優點:(1)通過矩陣運算,每次在乙個batch上優化神經網路引數並不會比單個資料慢太多。

(2)每次使用乙個batch可以大大減小收斂所需要的迭代次數,同時可以使收斂到的結果更加接近梯度下降的效果。

(3)可實現並行化。

缺點:(1)batch_size的不當選擇可能會帶來一些問題。

Game學習隨筆01 挑戰任務01

今天是2020年2月6日,時間過得好快,以至於我在寫到時間會下意識寫成2019年 看來全國肺炎情況進一步公升溫了,以至於我家所在的小區進行了命令封鎖通知,所以出行不再像以前那麼自由了,不管怎樣,給戰鬥在一線的抗肺炎醫生們以及相關工作人員加油打氣。言歸正傳,今天完成了有關python學習過程中的乙個小...

工作列程式 01

這裡的人氣真是不旺啊,我來添一把柴,希望能夠帶動大家的程式設計熱情。這是我第一次寫教程,不足之處大家多包涵。打算分兩次寫成乙個列於桌面右側的sidebar 中文名不知道叫什麼,好像應該算是工作列,因為主要靈感來自於desktop sidebar 程式,可以從網上讀取天氣預報,可以顯示當前的時鐘等基本...

Task01 機器學習的三大主要任務

接觸可挺久的機器學習了,這次有機會重頭開始學習機器學習,感覺機器學習的發展史需要再梳理一下了 機器學習階段 年份主要成果 代表人物 人工智慧起源 1936 自動機模型理論 阿蘭 圖靈 alan turing 1943 mp模型 沃倫 麥卡洛克 warren mcculloch 沃特 皮茨 walte...