機器學習學習筆記 day2

周志華《機器學習》學習筆記

最近開始學習機器學習，參考書籍西瓜書，做點筆記。

第二章模型評估與選擇

錯誤率：分類錯誤的樣本數佔樣本總數的比例，e=a/m。

精度：分類正確的樣本數佔樣本總數的比例，精確度=1-錯誤率。

過擬合：訓練樣本學的太好，導致泛化效能下降。

欠擬合：訓練樣本學的不太好。

測試集與訓練集盡量互斥，測試樣本盡量不在訓練樣本中出現。

產生訓練集和測試集的方法：

1.留出法；

2.交叉驗證法；

3.自助法。

效能度量：衡量模型泛化能力。

均方誤差：**值與實際值差的平方的總和除以樣本總數。對於資料分布d，均方誤差等於**值與實際值差的平方乘以概率密度函式的積分。

圖1.1 分類結果混淆矩陣

查準率：p=tp/(tp+fp)，即真實值與**值均是正例的情況除以**值均是正例的情況。

查全率：r=tp/(tp+fn)，即真實值與**值均是正例的情況除以真實值均是正例的情況。

p-r曲線：

1.若乙個學習器的pr曲線被另乙個pr曲線完全包住，則後者效能優於前者；

2.如果發生了交叉，則比較pr去線下的面積大小，但往往不容易估算；

3.選用查準率=查全率的直線找到pr曲線上的平衡點（bep），平衡點取值越大效能更好；

4.bep還是過於簡化，常用f1度量。f1度量一般式中引入引數β：1>β>0,查準率影響更大；β=1，為標準f1；β>1，查全率影響更大；

roc曲線縱軸：真正例率；橫軸：假正例率。

真正例率：tpr=tp/(tp+fn)。即**值與測試值均為正例的情況除以真實值為正例的所有情況。

假正例率：fpr=fp/(tn+fp)。即**值為正例，真實值為反例的情況除以真實值為反例的所有情況。

roc曲線判斷：

1.若乙個學習器的roc曲線被另乙個學習器的roc曲線包住，則後者效能優於前者；

2.若兩個曲線發生交叉，判斷依據是roc曲線下的面積，即auc。

圖1.2 二分類代價矩陣

costij表示將第i類樣本**為第j類樣本的代價。通常用比值。

代價敏感錯誤率：代價cost10情況的總和加上代價cost01情況的總和除以樣本總數。

比較檢驗以後再補充。第二章開始涉及許多公式，第一次看有點不適應，回過頭來複習理一下思路就會比較清晰，還是需要花時間補一下數學特別是概率統計。

如有不正確或者不完整的地方，歡迎補充。

歸一化將所有資料轉化到同一標準下，使的某乙個特徵對最終結果不會造成更大的影響。通過對原始資料進行變換把資料對映到預設為 0,1 之間問題如果資料中異常點過多，會有什麼影響？最大值最小值會受影響。方差考量資料的穩定性。標準化將所有資料進行變換到平均值為0，標準差為1之間。standardsc...

英文原鏈結源鏈結假設 x和y是線性相關的則需要找到乙個關於x的線性函式來盡可能準確的 y。y a0 a1x1 怎樣找到最合適的回歸線？通過最小化值和觀測值的均方差導入庫匯入資料集檢查缺失資料分離訓練集和測試集特徵縮放從sklearn.linear model中匯入linearreg...

硬體 cpu，主機板，記憶體，電源主機箱，硬碟，顯示卡，滑鼠鍵盤軟體軟體開發軟體開發人機互動圖形化介面，命令列科學計算，資料處理，自動控制，計算機輔助設計，人工智慧 tab shift ctrl alt 空格全選 ctrl a 複製 ctrl c 貼上 ctrl v 撤銷 ctrl...