機器學習sklearn和字典特徵抽取

2022-02-26 18:09:23 字數 1536 閱讀 1860

sklean資料集

sklearn資料集返回值介紹

def datasets_demo():

"""sklearn資料集使用

"""#獲取資料集

iris=load_iris()

print("鳶尾花資料集:\n",iris)

print("檢視資料集描述:\n",iris.descr)

print("檢視特徵值的名字:\n",iris.feature_names)

print("檢視特徵值:\n",iris.data,iris.data.shape)

#資料集劃分

# 訓練集的特徵值x_train 測試集的特徵值x_test 訓練集的目標值y_train 測試集的目標值y_test

x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target,test_size=0.2,random_state=22)

#訓練集的特徵值

print("訓練集的特徵值:\n",x_train,x_train.shape )

# 隨機數種子

x_train1, x_test1, y_train1, y_test1 = train_test_split(iris.data, iris.target, random_state=6)

x_train2, x_test2, y_train2, y_test2 = train_test_split(iris.data, iris.target, random_state=6)

print("如果隨機數種子不一致:\n", x_train == x_train1)

print("如果隨機數種子一致:\n", x_train1 == x_train2)

return none

作用:對字典資料進行特徵值化

我們對以下資料進行特徵提取

[

]def dict_demo():

"""對字典型別的資料進行特徵抽取

:return: none

"""data = [, , ]

# 1、例項化乙個轉換器類

transfer = dictvectorizer(sparse=false)

# 2、呼叫fit_transform

data = transfer.fit_transform(data)

print("返回的結果:\n", data)

# 列印特徵名字

print("特徵名字:\n", transfer.get_feature_names())

對於特徵當中存在類別資訊的我們都會做one-hot編碼處理

sklearn機器學習 PCA

pca使用的資訊量衡量指標,就是樣本方差,又稱可解釋性方差,方差越大,特徵所帶的資訊量越多 原理推導 class sklearn decomposition.pca n components none,copy true whiten false svd solver auto tol 0.0,it...

sklearn 機器學習庫

pipeline parameters steps 步驟 列表 list 被連線的 名稱,變換 元組 實現擬合 變換 的列表,按照它們被連線的順序,最後乙個物件是估計器 estimator memory 記憶體引數,instance of sklearn.external.joblib.memory...

機器學習 Sklearn 除錯模型

1 過擬合 處理過擬合的方法有 a 減少特徵,降低模型的複雜度 b 減小除錯引數 c 增加訓練資料量 常用的調參方法就是通過在懲罰函式中新增乙個正則化引數c來控制分類邊界對樣本的辨識度,如果是用權重的二次方,則是l2正則化,如果是 w c則是l1正則化。l2損失函式 x是訓練集,w權重矩陣,b是偏置...