機器學習有關於缺失值歸一化

決策樹、rf、xgboost如何處理缺失值？判斷特徵重要性？缺失值不敏感？

特徵歸一化（feature scaling），這也是許多機器學習模型都需要注意的問題。

有些模型在各個維度進行不均勻伸縮後，最優解與原來不等價，例如svm。對於這樣的模型，除非本來各維資料的分布範圍就比較接近，否則必須進行標準化，以免模型引數被分布範圍較大或較小的資料占有優勢。

有些模型在各個維度進行不均勻伸縮後，最優解與原來等價，例如logistic regression。對於這樣的模型，是否標準化理論上不會改變最優解。但是，由於實際求解往往使用迭代演算法，如果目標函式的形狀太「扁」，迭代演算法可能收斂得很慢甚至不收斂。所以對於具有伸縮不變性的模型，最好也進行資料標準化。

做歸一化有什麼好處呢？

其一是提公升模型訓練速度。

比如就兩個特徵，乙個特徵取值為0~2000，而另乙個特徵取值為1-5，對其進行優化時，會得到乙個長的橢圓形，導致在梯度下降時，梯度的方向為垂直等高線的方向而走之字形路線，這樣會使迭代慢。相比之下，做過歸一化的迭代就會很快。

feature scaling：（make sure features are on a similar scale）

其二，提公升模型的精度。

在涉及到一些距離計算的演算法時效果顯著，比如演算法要計算歐式距離。做歸一化很有必要，可以讓各個特徵對結果做出的貢獻相同。

關於歸一化的選擇：

1）在分類、聚類演算法中，需要使用距離來度量相似性的時候，或者使用pca技術進行降維的時候，用zscore表現更好。

2）在不涉及距離度量、協方差計算、資料不符合正太分布的時候，可以使用minmaxscore或其他歸一化方法。

碎碎念好久沒寫啦經歷了阿里面試結束說過了等hr 再到hc滿了被扔進公海再簡歷進入阿里雲無人問津後 ? 我就認真在做實習的事情了沒怎麼複習基礎概念 ε=(´ο｀*)))唉

機器學習有關於缺失值歸一化

機器學習之歸一化

機器學習資料歸一化

機器學習歸一化數值

機器學習 有關於缺失值 歸一化

機器學習之 歸一化

機器學習 資料歸一化

機器學習 歸一化數值

相關推薦

機器學習有關於缺失值歸一化

機器學習之歸一化

機器學習資料歸一化

機器學習歸一化數值