連續資料的離散化

2021-08-28 06:06:57 字數 947 閱讀 3205

1.分段類散

同步pandas.cut對值進行分段劃分,進行離散化。類散化後是分段的index。

import pandas as pd

data = [1,3,6,20,50,100]

w =[0,10,50,100]

v=5data_cut1 = pd.cut(data,w,labels=false)

data_cut2=pd.cut(data,v,labels=false)

print(data_cut1)

print(data_cut2)

2.頻率離散化

按照頻率劃分到不同的區間中

import pandas as pd

data = pd.series([0,1,6,7,2,10,8,22,5,11,10])

data_cut3 = pd.qcut(data,[0,0.5,1],labels=['1','2'])

print(data_cut3)

3.聚類離散

可以通過kmeans進行離散劃分

data = np.random.rand(100,1)

print(data)

estimator = kmeans(n_clusters=3) #分為3個簇

estimator.fit(data)

label_pred = estimator.labels_ #每個樣本所屬的簇

print(label_pred)

centroids = estimator.cluster_centers_ #3個中心點

print(centroids)

inertia = estimator.inertia_    #評估簇是否合適

print(inertia)

連續資料離散化

資料規範化 import pandas as pd datafile eeeee chapter4 demo data discretization data.xls 引數初始化 data pd.read excel datafile 讀取資料 data data u 肝氣鬱結證型係數 copy k...

sklearn連續型資料離散化

設定乙個condition,把連續型的資料分類兩類。比如age,大於30,和小於30。from sklearn.preprocessing import binerize as ber x data 2.iloc 0 values.reshpe 1,1 提取資料 trans ber threshol...

連續特徵離散化

參考知乎使用者 在工業界,很少直接將連續值作為邏輯回歸模型的特徵輸入,而是將連續特徵離散化為一系列0 1特徵交給邏輯回歸模型,這樣做的優勢有以下幾點 離散特徵的增加和減少都很容易,易於模型的快速迭代 這個點理解 稀疏向量內積乘法運算速度快,計算結果方便儲存,容易擴充套件 離散化後的特徵對異常資料有很...