Pandas資料離散化原理及例項解析

2022-10-04 15:48:24 字數 579 閱讀 7511

為什麼要程式設計客棧離散化

什麼是資料的離散化

連續屬性的離散化就是在連續屬性的值域上,將值域劃分為若干個zprwgy離散的區間,最後用不同的符號或整數 值代表落在每個子區間中的屬性值

分箱案例

1.先讀取**的資料,篩選出p_change資料

data = pd.read_csv("./data/stock_day.csv")

p_change= data['p_change']

2.將**漲跌幅資料進行分組

使用的工具:

# 自行分組

qcut = pd.qcut(p_change, 10)

# 計算分到每個組資料個數

qcut.value_counts()

自定義區間分組:

# 自己指定分組區間

bins = [-100程式設計客棧, -7, -5, -3, 0, 程式設計客棧3, 5, 7, 100]

p_counts = pd.cut(p_change, bins)

本文標題: pandas資料離散化原理及例項解析

本文位址: /jiaoben/python/286780.html

pandas 資料離散化

連續屬性離散化的目的是為了簡化資料結構,資料離散化技術可以用來減少給定連續屬性值的個數。離散化方法經常作為資料探勘的工具。連續屬性的離散化就是將連續屬性的值域上,將值域劃分為若干個離散的區間,最後用不同的符號或整數值代表落在每個子區間中的屬性值。離散化有很多種方法,這使用一種最簡單的方式去操作 這樣...

利用pandas對資料離散化

在實際的工作場景中,我們經常會遇到這樣一種場景 想要將某些字段進行離散化即分桶,簡單來說就是講年齡分成幾個區間。pandas中的cut方法能很好地完成此操作。匯入相關庫,並建立資料集 import pandas as pd import numpy as np index pd.index data...

Pandas資料離散化處理

資料離散化處理 import pandas as pd import matplotlib.pyplot as plt from pylab import mpl 設定顯示中文字型 mpl.rcparams font.sans serif simhei data pd.read csv data s...