機器學習筆記

2021-10-03 18:51:20 字數 397 閱讀 5666

1、機器學習為什麼要打亂資料

機器學習中的訓練是用已知的輸入資料來修改模型中的引數,以將其泛化到新的資料上。

假設輸入資料大致可以分為兩類。若不將輸入資料打亂,則在訓練時模型的引數首先用於擬合第一種型別的資料,而當大量的第一類資料連續輸入訓練時,極易造成引數在第一類資料上過擬合。當這一任務完成後,產生的模型顯然不適用與第二類資料,此時開始連續輸入第二類資料,這時模型又要盡力逼近第二類資料,造成新的過擬合。依此反覆執行,只會讓模型在兩種過擬合之間徘徊,訓練效果差。

而當我們選擇打亂資料進行訓練時,模型不會輕易在任何一類資料上產生過擬合,從而可以訓練出適合兩類資料的統一模型,

樣本分佈不均勻,容易造成過擬合,無法收斂。

機器學習學習筆記

2.機器學習書籍 機器學習tom,這個是老經典,就是翻譯欠佳 prml,這個書正版的超貴,但是比較新且系統,可以通過其他途徑搞個副本。3.自己動手編碼實現2 3種經典演算法,比如svm,lr,bpnn等。4.了解spark上目前支援的機器學習方法的用途和用法,這個在日常工作中會用到。知道的多一點,方...

機器學習 學習筆記

關於梯度下降演算法的優化與 會有三種方法優化梯度下降演算法 1.共軛梯度下降法 conjugate 2.變尺度法 bfgs 3.限制變尺度法 l bfgs 這些方法的好處是 1.不用選擇學習速率 2.收斂的速度快,執行效率高 但是她們的缺點在於 實現她們的方法太複雜,所以我們就可以使用語言的內建庫函...

機器學習 學習筆記

監督學習 我們的學習演算法使用的資料是給出正確答案的資料,然後我們執行學習演算法,出更多的正確答案。理解為像深度需學習類似,利用訓練樣本訓練處學習模型,然後用測試樣本對學習到的模型進行檢測,輸出 結果。無監督學習 可以理解為對於學習演算法所使用的資料集並沒有給出正確答案,學習演算法就是要對這資料集進...