資料離散化

2021-09-27 04:22:16 字數 2235 閱讀 7152

載入資料,並將資料離散化

detail = pd.read_excel('./meal_order_detail.xlsx')

# print(detail.loc[:,'dishes_name'])

res = pd.get_dummies(detail.loc[:,'dishes_name'],prefix='菜品',prefix_sep=':')

將連續性資料進行離散化,進行分組,將具體的數值轉化為區間資料。bins表示分幾組,include_lowest為true包含資料中的最小值。

amounts列的資料如下:

資料離散化之後的結果如下:

利用分位數進行等頻分組  [0,0.2,0.4,0.6,0.8,1.0]

將連續性資料轉變成啞變數資料

bins = [0,40,80,120,160,200]

res_cut = pd.cut(detail.loc[:,'amounts'],bins=bins,include_lowest=true)

res_counts = pd.value_counts(res_cut)

res_dum = pd.get_dummies(res_cut,prefix='區間',prefix_sep=':')

資料離散化

離散化有兩種方法 第一種,先看一段 const int n 1e5 7 int t n a n int main 在這段 中,a經過離散,範圍就變成了m。解釋一下,unique是c 自帶的乙個函式,表示對乙個數列去重,然後返回不重複的元素個數,當然在後面要減去首位址。那麼這種離散化對於有重複元素的數...

資料離散化

一 概述 資料離散化是乙個非常重要的思想。為什麼要離散化?當以權值為下標的時候,有時候值太大,存不下。所以把要離散化的每乙個陣列裡面的數對映到另乙個值小一點的陣列裡面去。打個比方,某個題目告訴你有10 4個數,每個數大小不超過10 10,要你對這些數進行操作,那麼肯定不能直接開10 10大小的陣列,...

資料離散化

今天執行 資料離散化 部分 時出錯,環境python3.6 pycharm,網上各種查詢資料後發現原 主要是三個地方需要修改 下面紅色部分,原有問題 被注釋掉了 修改並新增了部分注釋。coding utf 8 資料規範化 import pandas as pd datafile data discr...