K最近鄰（KNN）演算法（二）

2. 待補充

通過knn演算法的實踐中，樣本的不同特徵的單位不同，會在求距離時造成很大的影響。比如：在兩個樣本中腫瘤大小的分別為1cm和5cm，發現時間分別為100天和200天，那麼在求距離時，時間差為100、大小差為4，那麼其結果會被時間所主導，因為腫瘤大小的差距太小了。但是如果我們把時間用年做單位，0.27年與0.55年的差距又遠小於腫瘤大小的差距，結果又會被大小主導

通過資料歸一化，可以把有量綱的資料，經過變換，轉化為沒有量綱的資料。利用資料歸一化的方法，可以把數字統一對映到比較小的區間裡面，這樣就不會受到單位不同的影響

對測試資料集進行歸一化時，仍然要使用訓練資料集的均值train_mean和方差std_train。這是因為測試資料是模擬的真實環境，真實環境中可能無法得到均值和方差，對資料進行歸一化。所以後面所有的資料，也應該做同樣的處理，sklearn中處理方法即：

x_test_scale = stardardscaler.transform(x_test)

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import standardscaler
from sklearn.neighbors import kneighborsclassifier
# 載入鳶尾花資料集
iris = datasets.load_iris()
# 提取資料集中的特徵資料
x = iris.data
y = iris.target
# 把資料集劃分為訓練資料集和測試資料集
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=0)
# 物件例項化
stardardscaler = standardscaler()
# 類似於模型的訓練過程
stardardscaler.fit(x_train)
# 使用 transform 實現均值方差歸一化
x_train_scale = stardardscaler.transform(x_train)
# 不要對x_test進行訓練，直接呼叫前面訓練好的模型進行歸一化
x_test_scale = stardardscaler.transform(x_test)
# 呼叫 k-近鄰演算法
knn = kneighborsclassifier(n_neighbors=3)
knn.fit(x_train_scale, y_train)
# 對演算法進行評分
print('演算法評分:', knn.score(x_test_scale, y_test))

K最近鄰（KNN）演算法（二）

演算法二 K 近鄰（KNN）演算法

K 近鄰演算法 KNN

k近鄰演算法 kNN

K最近鄰（KNN）演算法（二）

演算法二 K 近鄰（KNN）演算法

K 近鄰演算法 KNN

k近鄰演算法 kNN

相關推薦