資料分析 numpy基礎(三)

2021-09-27 09:34:59 字數 1445 閱讀 8786

橫向堆疊,將兩個表在x軸向拼接在一起:

pd.concat(objs,axis=0,join='outer',join_axes=none,ignore_index='false'

引數名稱

說明objs

接受多個series,dataframe,panel組合,表示參與的組合

axis

連線的軸向,axis=0縱向拼接,axis=1橫向拼接

join

接受inner或outer,表示是按交集(inner)還是並集(outer)進行合併

join_axes

接受index物件。表示其他n-1條軸的索引

pd.merge(left,right,how="inner",on=none,left_on=none,right_on=none,sort=false)

pd.join(self,other,on=none,how="left")#兩個主鍵名字必須相同

pd.dataframe.combin_first(other)

def delrep(list1):

list2=

for i in list1:

if i not in list2:

return list2

或者使用set函式進行去重,但會資料排列 

使用pd.dataframe.drop_duplicates(self,subset=none,keep="first',inplace=false),不會改變但是只能用打他發麼或者series

isnull()識別缺失值,notnull()識別非缺失值,可以結合sum()來檢查缺失值

pd.dateframe.dropna(self,axis=0,how='any',inplace=false),刪除缺失值

pd.dataframe.fillna(value=none,method=none,axis=none,inplace=false),替換缺失值

常用異常值檢查:3σ原則和箱線圖分析

離散標準化:標準化後資料限定在[0,1]的區間裡

標準差標準化:資料分布影響小

小數定標標準化:比較好用

pd.get_dummies(data,prefix=none,prefix_sep="_",dummy_na=false,columns=none)

data是處理的資料,prefix是啞變數化後列名的字首,columns需要編碼的列名

等寬法:pd.cut(x,bins,right=true,labels=none,retbins=false)

引數名稱說明x

處理的資料

bins

若為int,代表離散化的類別數目,如果為序列資料,這表示切分的區間

right

代表右側是否為閉區間

labels

離散化後的類別名稱

retbins

返回區間標籤

資料分析 numpy基礎

目錄 numpy是高效能科學計算和資料分析的基礎包。它也是pandas等其他資料分析的工具的基礎,基本所有資料分析的包都用過它。numpy為python帶來了真正的多維陣列功能,並且提供了豐富的函式庫處理這些陣列。它將常用的數學函式都支援向量化運算,使得這些數學函式能夠直接對陣列進行操作,將本來需要...

資料分析 numpy基礎(二)

matr1 np.mat 1 2 3 4 5 6 7 8 9 用mat函式建立矩陣 matr2 np.matrix 1,2,3 4,5,6 7,8,9 用matrix函式建立矩陣 np.bmat arr1 arr2 arr1 arr2 用bmat函式合成矩陣 矩陣相乘 matr1 matr2 矩陣元...

numpy資料分析

2020 11 2 import array arr array.array i list range 10 i表示整型,生成序列後不能改變資料型別 多維陣列ndarray方便處理多維度運算,運算效率高 nparr np.array list range 10 修改值,浮點數取整數段 nparr 2...