python統計電影分類(字串離散化案例)

2021-10-09 06:05:08 字數 1983 閱讀 8303

# 以下兩句是顯示中文的方法

from pylab import

*mpl.rcparams[

'font.sans-serif']=

['simhei'

]#有效的方法

file_path =

"c:/users/ming/desktop/dataanalysis-master/day05/code/imdb-movie-data.csv"

df = pd.read_csv(file_path)

print

(df[

"genre"

].head(3)

)# 統計分類的列表,tolist合成乙個大列表輸出

temp_list = df[

"genre"].

str.split(

",")

.tolist(

)#[,,]列表巢狀列表

print

(temp_list)

# set是集合可以去重,也就是所說的唯一化,用雙重for迴圈才能把巢狀列表展開

genre_list =

list

(set

([i for j in temp_list for i in j]))

print

(genre_list)

# 構造全為0的陣列,df.shape[0]表示行數,len(genre_list)表示列數,用columns修改列名

zeros_df = pd.dataframe(np.zeros(

(df.shape[0]

,len

(genre_list)))

,columns=genre_list)

print

(zeros_df)

# 給每個電影出現分類的位置賦值1

# df.shape[0]表示行數

for i in

range

(df.shape[0]

):#zeros_df.loc[0,["sci-fi","mucical"]] = 1

zeros_df.loc[i,temp_list[i]]=

1print

(zeros_df.head(3)

)#統計每個分類的電影的數量和

genre_count = zeros_df.

sum(axis=0)

print

(genre_count)

#排序genre_count = genre_count.sort_values(

)_x = genre_count.index

_y = genre_count.values

#畫圖plt.figure(figsize=(10

,6),dpi=80)

plt.bar(

range

(len

(_x)

),_y,width=

0.4,color=

"orange"

)plt.xticks(

range

(len

(_x)

),_x)

# 新增描述資訊

plt.xlabel(

"電影型別"

)plt.ylabel(

"數量"

)plt.title(

"不同電影型別數量分布條形圖"

程式設計入門 字串分類統計

輸入一行字元,分別統計出其中英文本母 數字 空格和其他字元的個數。輸入一行字元 輸出統計值 樣例輸入 aklsjflj123 sadf918u324 asdf91u32oasdf 123 樣例輸出 23 16 2 4 題目解析 這裡我們會用到getchar 函式,簡單來說,getchar 就是從鍵盤...

統計字串

題目 計算字串中字母 數字 其他字元的個數。datas segment buf db 80 len db string db 80 dup 32 crlf db 13,10,displ db the amount of letters is 13,10,dispd db the amount of ...

字串統計

演算法訓練 字串統計 時間限制 1.0s 記憶體限制 512.0mb 問題描述 給定乙個長度為n的字串s,還有乙個數字l,統計長度大於等於l的出現次數最多的子串 不同的出現可以相交 如果有多個,輸出最長的,如果仍然有多個,輸出第一次出現最早的。輸入格式 第一行乙個數字l。第二行是字串s。l大於0,且...