百面機器學習一

2021-10-09 15:35:49 字數 1103 閱讀 1647

特徵歸一化常見的有兩種,一種是線性函式歸一化,一種是零均值歸一化。

線性函式歸一化(min-max scaling)

對原始資料進行線性變換,將結果對映到【0,1】的範圍,歸一化公式如下:

x no

rm=x

−xmi

nxma

x−xm

in

,x_ = \frac}-x_} ,

xnorm​

=xma

x​−x

min​

x−xm

in​​

,其中 x 為原始資料, xma

xx_

xmax

​ 、 xmi

nx_

xmin

​ 分別為資料最大值和最小值。

零均值歸一化(zero-score normalization)

它會將原始資料對映到均值為0、標準差為1的分布上。

歸一化公式定義為:

z =x

−μ

σz = \frac

z=σx−μ

​歸一化的目的: 更快的通過梯度下降找到最優解。 btw, 特徵歸一化對於決策樹模型並不適用,詳細的還不了解。

資料不足面的問題主要表現在擬合方面,就是說我們在訓練集上面的效果可能還不錯,但是在測試集上的泛化能力很差。解決方法可以分為兩類。

基於模型的方法:簡化模型(非線性變成線性),新增約束項以減小假設空間(l1/l2正則項),dropout超引數等;

資料擴充:隨機旋轉,平移,裁剪,縮放,新增顏色擾動,比如椒鹽雜訊,高斯雜訊。 mse

loss

=∑i=

1n(y

i−yi

^)2n

mse_ = \sqrt^(y_i - \hat)^2}}

mselos

s​=n

∑i=1

n​(y

i​−y

i​^​

)2​​

這是乙個用來評測回歸模型的常用指標。數值越大,說明效果越差,數值越小,說明效果越好。

乙個問題就是離群點對該評價指標的影響很大,

百面機器學習

目錄 第一章 特徵工程 1.1特徵歸一化 1.2高維組合特徵的處理 特徵工程 對原始資料進行一系列工程處理,將其提煉為特徵。作為輸入給演算法和模型使用。本質上,特徵工程是乙個表示和展現資料的過程。特徵工程旨在去除原始資料中的雜誌。結構化資料 類似於資料庫中的乙個表,每乙個行列都有清晰的定義,包含數值...

《百面機器學習》模型評估

沒有測量,就沒有科學。門捷列夫 在模型評估過程中,分類問題 排序問題 回歸問題往往需要使用不同的指標進行評估。在諸多的評估指標中,大部分指標只能片面地反映模型的一部分效能。如果不能合理地運用評估指標,不僅不能發現模型本身的問題,而且會得出錯誤的結論。準確率 accuracy 精確率 precisio...

百面機器學習筆記 4

roc曲線 question 如何計算auc?answer 首先,auc是指roc曲線下的面積大小,該值能夠量化地反映基於roc曲線衡量出的模型效能。計算auc值只需要沿著roc橫軸做積分就可以了。由於roc曲線一般都處於y x這條直線的上方 如果不是的話,只要把模型 的 概率反轉成1 p就可以得到...