pandas 初級學習

一維陣列與 numpy的array 以及 list相似 series 可以儲存不同型別的資料

理解成seires的一種容器

s= pd.series([1,2,3,np.nan,4,5]，index=[a,b,c,d,e,f])

返回左側為下標一般為數字，可以額外指定但是資料型別必須統一

pd的索引下標就是行標籤

s.index 返回索引資訊

s.values 返回值

s[0] 返回第乙個值

s[2:5]

s.index.name=「索引」讓索引列headerview為：索引

s.index=list(『abcdef』) 相當於 s=pd.series([1,2,3,np.nan,4,5]，index=[a,b,c,d,e,f])

使用字母切片的時候是閉區間

dataframe 是個二維陣列

df=pd.dataframe(np.random.randn(6,4)

生成乙個6行4列的二維陣列

0 1 2 3 0 -1.004211 0.228841 0.494869 -1.019319 1 -0.833322 -1.333550 0.113505 1.963115 2 -0.703133 0.732903 0.146812 -0.066615 3 1.185536 0.352014 0.960584 -1.706782 4 0.290114 -0.076001 0.241904 -0.593647

5 -1.047212 2.111794 -0.065611 0.988204

通過index 來指定行索引通過columns 來指定列索引的名稱

df =pd.dataframe( np.random.randn(6,4),index=date,columns=list(『abcd』))

a b c d 2019-01-01 0.258845 -1.756340 -0.338932 -0.543527 2019-01-02 1.621580 0.183436 0.258314 1.313766 2019-01-03 -0.973349 -1.334124 -0.638793 0.452062 2019-01-04 0.663128 0.452959 1.166851 -0.737856 2019-01-05 0.568413 -0.289317 -1.577237 -0.171491

2019-01-06 1.575756 -0.978803 0.728931 -0.460711

df2=pd.dataframe()

類別是不限制的但是每列的資料必須是一樣的每列之間可以不同

字典裡面的key代表索引列 value 是可以能夠轉化為series的物件

a b c d e f 0 1.0 2019-01-01 1.0 3 test abc 1 1.0 2019-01-01 1.0 3 train abc 2 1.0 2019-01-01 1.0 3 test abc

3 1.0 2019-01-01 1.0 3 train abc

df.head(10) 如果不填寫則預設前五行

df.tail(3) 顯示後3行

df.dtypes 顯示每列的資料型別

df.index 顯示每行的索引

df.columns 顯示每列的索引名稱

df.values 顯示資料

df=pd.read_excel(『kkkkk』) 'kkkkk』是本目錄下檔案或者檔案的絕對路徑\

pd.read_excel 詳細了解一下。比如多個sheet如何選中其中乙個，還有選擇某個區域匯入。。等等

csdn鏈結

df.iloc[0] 顯示第一行的資訊

df.iloc[0:5] 左閉右開的取件

df.loc[0:5] 閉區間

新增一行

先構造字典資料

dit=dit=
s=pd.series(dit)
s.name=38738

刪除一行

df=df.drop([series.name])

列名稱

df.columns

檢視某列的資訊

df[『名字』][:5] 檢視名字列前5行的資料

df[[『名字』,『型別』]] 檢視多列的資料

增加一列

df[『序號』]=range(1,len(df)+1)

刪除一列

df.drop(「序號」，axis=1) 因為不是drop行要寫明白列名「序號」， axis=0 是行 axis=1 為列

df.loc[1,『名字』] 返回第二行名字列的資料

df.loc[[行標籤],[列標籤]]

df[「產地」] == 「美國」得到df中產地是美國的乙個 bool series

再根據bool資料進行選擇

df[df[『產地』]==「美國」] 篩選出符合條件的資料

df[df[『產地』]==「美國」][：5]選出前五行\

df[(con_1)&(con_2)] 兩個條件 & and 的關係

df[(df.產地==「美國」) & (df.評分》()]

df[((con_1)|(com_2))&(con_3)]

方法說明

dropna

fillna

isnull

notnull\

方法說明

dropna

根據標籤中的缺失值進行過濾，刪除缺失值

fillna

對缺失值進行填充

isnull

返回乙個布林值物件，判斷哪些值是缺失值

notnull

isnull的否定式

判斷缺失值

df.isnull()

df[『columns_name』].isnull() 判斷某列缺失值返回 bool值

df[df[『columns_name』].isnull()] 返回缺失值的dataframe

填充缺失值

df[『評分』].fillna(0，inplace=true) 用數字 0 填充評分列缺失值，並且直接替換原資料、

df1=df.fillna(「未知資料」) 會將所有控制都填充為「未知資料」謹慎使用。

刪除缺失值

df.dropna()

引數： how=「all」刪除全未控制的行或者列

inplace=true 覆蓋之前的資料 df 會變成刪除掉缺失值之後的陣列

axis=0 選擇行或者列\

一般異常值都很少，在不影響資料整體份的情況下，直接刪除就好了

df=df[df.投票人數》0] 直接篩選出合理數值

完成資料處理之後，我們將資料儲存到excel中

df.to_excel(「filename」) filename 未絕對或者相對路徑是資料儲存的位置

pandas 初級學習

MySQL初級培訓 Mysql初級學習

List,Set,Map初級學習

Pandas學習筆記 Pandas概覽（一）

pandas 初級學習

MySQL初級培訓 Mysql初級學習

List,Set,Map初級學習

Pandas學習筆記 Pandas概覽（一）

相關推薦