機器學習筆記

2021-10-25 10:17:33 字數 275 閱讀 8780

q：為什麼樣本要新增雜訊？

a:因為害怕過擬合。神經網路的表徵能力是很強的，容易陷入過擬合。

資料集只能代表真實資料分布的區域性情況，除非資料集無限大（連續分布）或者包含所有可能的資料（離散分布），否則網路不能完全學習到資料的真實分布，所以不能完全覆蓋到真實的所有資料分布，即過擬合到區域性優化點。此時，資料擴增成為增加資料集的多樣性的乙個方法，也就能擴大網路擬合資料真實分布的能力，盡可能減小經驗風險，增加泛化效能，從而在未見過的測試集上表現更好。而資料擴增的乙個簡單方式就是對已有的資料進行擾動加噪。參考**

機器學習學習筆記

2.機器學習書籍機器學習tom,這個是老經典，就是翻譯欠佳 prml，這個書正版的超貴，但是比較新且系統，可以通過其他途徑搞個副本。3.自己動手編碼實現2 3種經典演算法，比如svm，lr，bpnn等。4.了解spark上目前支援的機器學習方法的用途和用法，這個在日常工作中會用到。知道的多一點，方...

機器學習學習筆記

關於梯度下降演算法的優化與會有三種方法優化梯度下降演算法 1.共軛梯度下降法 conjugate 2.變尺度法 bfgs 3.限制變尺度法 l bfgs 這些方法的好處是 1.不用選擇學習速率 2.收斂的速度快，執行效率高但是她們的缺點在於實現她們的方法太複雜，所以我們就可以使用語言的內建庫函...

機器學習學習筆記

監督學習我們的學習演算法使用的資料是給出正確答案的資料，然後我們執行學習演算法，出更多的正確答案。理解為像深度需學習類似，利用訓練樣本訓練處學習模型，然後用測試樣本對學習到的模型進行檢測，輸出結果。無監督學習可以理解為對於學習演算法所使用的資料集並沒有給出正確答案，學習演算法就是要對這資料集進...