使用pandas做資料處理

對已有的指標進行簡單的加減乘除處理

求單個企業營業收入的行業佔比

根據****判斷是否是為st

判斷審計機構是否是四大

去除空值、去除資產負債率大於1的企業

groupby

列表生成式

.loc

merge

concat

lambda表示式

直接對對應索引 +、-、*、/

使用groupby，merge函式

df [
'行業總值'
]= pd.merge(df,df.groupby(
"行業").
sum(
),left_on=
'行業'
,right_index=
true
,how=
'left'
)df[
'行業佔比'
]= df[
'營業收入'
]/df[
'行業總值'
]

df[
'**屬性'
]=df[
'****'].
(lambda x:
"st"
in x)
#如果要返回0，1
df['**屬性'
]=df[
'****'].
(lambda x:
int(
"st"
in x)
)#方法二：列表生成式
df['**屬性']=
[1if"st"
in i else
0for i in df[
'****'
]]

和上面差不多的方法，只是會用到邏輯判斷or

#列表生成式
df['是否四大']=
[1if"畢馬威"
in i or 「安永" in i or "普華永道" in i or "德勤" in i else
0for i in df[
'****'
]]

或者用excel

if(or(isnumber(find(,str))),1,0)

用dropna去除空值、iloc進行條件篩選

#去除有缺失值的行
df = df.dropna(axis=0)
df = df.iloc[df[
'資產負債率'
]<0,
:]

pandas 資料處理

pandas中資料可以分為series，dataframe，panel分別表示一維至三維資料。其中在構造時，index表示行名，columns表示列名構造方式 s pd.series data index index s pd series np random randn 5 index a b ...

pandas資料處理

dataframe.duplicated subset none,keep first 判斷dataframe中的資料是否有重複必須一行中所有資料都重複才算重複，只能判斷行，不能判斷列返回series dataframe.drop duplicates subset none,keep firs...

Pandas資料處理

資料處理 pandas from sklearn.preprocessing import minmaxscaler data 1,2 0.5,6 0.10 1,18 將 numpy 轉換成 pd 表 pd.dataframe data 歸一化 0，1 之間 scaler minmaxscaler ...

使用pandas做資料處理

pandas 資料處理

pandas資料處理

Pandas資料處理

相關推薦