使用pandas做資料處理

2021-10-02 19:23:11 字數 1290 閱讀 7845

對已有的指標進行簡單的加減乘除處理

求單個企業營業收入的行業佔比

根據****判斷是否是為st

判斷審計機構是否是四大

去除空值、去除資產負債率大於1的企業

groupby

列表生成式

.loc

merge

concat

lambda表示式

直接對對應索引 +、-、*、/

使用groupby,merge函式

df [

'行業總值'

]= pd.merge(df,df.groupby(

"行業").

sum(

),left_on=

'行業'

,right_index=

true

,how=

'left'

)df[

'行業佔比'

]= df[

'營業收入'

]/df[

'行業總值'

]

df[

'**屬性'

]=df[

'****'].

(lambda x:

"st"

in x)

#如果要返回0,1

df['**屬性'

]=df[

'****'].

(lambda x:

int(

"st"

in x)

)#方法二:列表生成式

df['**屬性']=

[1if"st"

in i else

0for i in df[

'****'

]]

和上面差不多的方法,只是會用到邏輯判斷or

#列表生成式

df['是否四大']=

[1if"畢馬威"

in i or 「安永" in i or "普華永道" in i or "德勤" in i else

0for i in df[

'****'

]]

或者用excel

if(or(isnumber(find(,str))),1,0)

用dropna去除空值、iloc進行條件篩選

#去除有缺失值的行

df = df.dropna(axis=0)

df = df.iloc[df[

'資產負債率'

]<0,

:]

pandas 資料處理

pandas中資料可以分為series,dataframe,panel分別表示一維至三維資料。其中在構造時,index表示行名,columns表示列名 構造方式 s pd.series data index index s pd series np random randn 5 index a b ...

pandas資料處理

dataframe.duplicated subset none,keep first 判斷dataframe中的資料是否有重複 必須一行中所有資料都重複才算重複,只能判斷行,不能判斷列 返回series dataframe.drop duplicates subset none,keep firs...

Pandas資料處理

資料處理 pandas from sklearn.preprocessing import minmaxscaler data 1,2 0.5,6 0.10 1,18 將 numpy 轉換成 pd 表 pd.dataframe data 歸一化 0,1 之間 scaler minmaxscaler ...