資料分析 series字串離散化

2021-10-09 19:26:49 字數 1061 閱讀 6759

'''

問題:1、假設dataframe中有一列名為type,其字段中內容為a,b,c 等用,隔開的值,如:

type

a,b,c

a,f,x

b,c,e

...統計type中每個型別出現的次數 並繪圖

'''import pandas as pd

import numpy as np

from matplotlib import pyplot as plt

# 讀取資料

df = pd.read_csv("檔案路徑/檔名")

#統計分類的列表

temp_list = df["type"].str.split(",").tolist()

type_list = list(set([i for j in temp_list for i in j]))

# 構造全為0的陣列

zeros_df = pd.dataframe(np.zeros((df.shape[0],len(type_list))),columns=type_list)

# print(zeros_df)

# 給每個type出現分類的位置賦值為1

for i in range(df.shape[0]):

zeros_df.loc[i,temp_list[i]] = 1

# 統計每個分類type的數量和

type_count = zeros_df.sum(axis=0)

print(type_count)

# 排序

type_count = type_count.sor_values()

_x = type_count.index

_y = type_count.values

# 繪圖

# 設定大小

plt.figure(figsize=(20,8),dpi=80)

plt.bar(range(len(_x)),_y) #繪製條形圖

plt.xticks(range(_x),_x)

plt.show()複製**

資料分析之Series基本操作

匯入包 import numpy as np import pandas as pd from pandas import series,dataframe series是一種類似與一維陣列的物件,由下面兩個部分組成 s series data 1,2,5,4,7 s0 1 1 2 2 5 3 4 ...

python資料分析之Series學習

import pandas as pd pd.set option display.unicode.east asian width true 解決列名輸出不齊 df pd.read excel c users administrator desktop python資料分析code code 03...

Series入門 python進行資料分析

series是一種類似於一維陣列的物件,它由一組資料及一組與之相關的資料標籤組成。series的字串表示為索引在左,值在右。from pandas import dataframe,series backend tkagg is interactive backend.turning interac...