PYTHON對數值變數進行標準化,離散變數標籤化

2021-10-25 15:34:53 字數 1061 閱讀 7028

## 建模前的資料準備, 數值變數進行標準化,離散變數標籤化

## df_data:dataframe型別資料

## label_name:目標變數名稱

## unique_id:資料集唯一標識

defdata_standarder

(df_data , label_name, unique_id)

:## 得到標註

label = df_data[label_name]

## 去掉標註和id

import copy

feature_x = copy.deepcopy(df_data.drop(

[unique_id , label_name]

, axis =1)

)##

o_index , c_index = distinguish_char_num(feature_x)

## 對數值型變數標準化

from sklearn.preprocessing import minmaxscaler , standardscaler , labelencoder , onehotencoder

## 對數值型變數進行標準化

col_lst_o = o_index

for col_name in col_lst_o:

feature_x[col_name]

= minmaxscaler(

).fit_transform(feature_x[col_name]

.values.reshape(-1

,1))

.reshape(1,

-1)[

0]## 對分類變數進行onehot 編碼

col_lst_c = c_index

for col_name in col_lst_c:

feature_x[col_name]

= labelencoder(

).fit_transform(feature_x[col_name]

)return feature_x , label

python怎麼對數字進行過濾

本文例項總結了python 如果想從乙個含有數字,漢字,字母的列表中濾除僅含有數字的字元,當然可以採取正規表示式來完成,但是有點太麻煩了,因此可以採用乙個比較巧妙的方式 1 正規表示式解決 import re l u 小明 xiaohong 12 adf12 14 for i in range le...

two steps 對數似然距離 數值變數計算

當已有了二步聚類法的訓練結果,怎麼固化到其他新樣本 按照上面的式子 對新的樣本進行類別判斷的時候,依然如同k means一樣,計算距離 然後選擇最近的類 作為新樣本的類別標記。上面的式子是計算2個類別之間的距離,有方差,而樣本作為單個,方差為0,由資料在處理前是經過對中方差單位化,所以類別和樣本之間...

Python對資料庫進行操作

步驟三 編寫python指令碼,下例只是做了個查詢 具體使用要結合你的需求進行對資料庫操作,然後對操作結果進行校驗和下部操作。usr bin python coding utf 8 import mysql.connector import mysqldb conn mysqldb.connect ...