Udacity 機器學習入門 特徵縮放

2021-08-11 18:32:07 字數 1648 閱讀 7740

因為在這裡,體重完全主導了結果,身高的影響微乎其微。

而我們應該盡量讓兩者對結果有同等重要的影響。

這就引來了特徵縮放——把特徵都限制在[0,1]之間。

解釋:

特點:縮放後的特徵值總是在0和1之間

def featurescaling(arr):

import numpy as np

arr = np.array(arr)

max = np.max(arr)

min = np.min(arr)

new=

foritem

in arr:

ifmax != min :

float (item)

item =float(item-min)/(max-min)

else:

item=0.5

return

new# tests of your feature scaler--line below is input data

data = [115, 140, 175]

print featurescaling(data)

這裡要特別注意float的問題如果不做型別轉換,則會發生:(140-115)/175=0

但是float這裡用的位置很重要,解釋如下:

1/2=0

1.0/2=0.5

微笑臉~

訪問preprocessing data可以獲取

可以通過minmaxscaler或者maxabsscaler引入

from sklearn.preprocessing import minmaxscaler

import numpy

#這裡numpy陣列中的是特徵,因為此處特徵只有乙個,所以看起來是這樣的

#因為這裡應該作為乙個浮點數進行運算,所以數字後面要加.

weights = numpy.array([[115.],[140.],[175.]])

scaler = minmaxscaler()

rescaled_weight = scaler.fit_transform(weights)

print rescaled_weight

在這兩種演算法中計算距離時,你其實是在利用乙個維度與另乙個維度進行交換

如:

minmaxscaler

salary : 0.17962406631

stock : 0.0290205889347

Udacity機器學習入門筆記5 回歸

2.udacity test 參考文獻 以下是一組用於線性回歸的方法,這些方法中,目標值是一組特徵的線性組合。在數學公式中,y hat y 是 值 y w,x w0 w1x1 w pxp hat w,x w w x ldots w x y w,x w 0 w 1 x1 wp x p 其中,向量w w...

優達(Udacity) 機器學習基礎 交叉驗證

import numpy as np from sklearn.model selection import train test split from sklearn import datasets from sklearn import svm iris datasets.load iris i...

優達(Udacity) 機器學習基礎 誤差原因

資料足夠,模型不夠複雜 過度簡化 欠擬合 結果對於任何給定的測試樣本會出現多大的變化 對訓練集高度敏感 過擬合 overfitting 可以利用sklearn中的學習曲線來辨別模型表現的好壞。引入模組 from sklearn.model selection import learning curv...