pandas 初級學習

2021-09-11 07:35:23 字數 3550 閱讀 8118

一維陣列 與 numpy的array 以及 list相似 series 可以儲存不同型別的資料

理解成seires的一種容器

s= pd.series([1,2,3,np.nan,4,5],index=[a,b,c,d,e,f])

返回左側為下標 一般為數字,可以額外指定 但是資料型別必須統一

pd的索引下標就是行標籤

s.index 返回索引資訊

s.values 返回值

s[0] 返回第乙個值

s[2:5]

s.index.name=「索引」 讓索引列headerview為: 索引

s.index=list(『abcdef』) 相當於 s=pd.series([1,2,3,np.nan,4,5],index=[a,b,c,d,e,f])

使用字母切片的時候 是閉區間

dataframe 是個二維陣列

df=pd.dataframe(np.random.randn(6,4)

生成乙個6行4列的二維陣列

0        	1       	2       	3

0 -1.004211 0.228841 0.494869 -1.019319

1 -0.833322 -1.333550 0.113505 1.963115

2 -0.703133 0.732903 0.146812 -0.066615

3 1.185536 0.352014 0.960584 -1.706782

4 0.290114 -0.076001 0.241904 -0.593647

5 -1.047212 2.111794 -0.065611 0.988204

通過index 來指定行索引 通過columns 來指定列索引的名稱

df =pd.dataframe( np.random.randn(6,4),index=date,columns=list(『abcd』))

a       	b       	c       	d

2019-01-01 0.258845 -1.756340 -0.338932 -0.543527

2019-01-02 1.621580 0.183436 0.258314 1.313766

2019-01-03 -0.973349 -1.334124 -0.638793 0.452062

2019-01-04 0.663128 0.452959 1.166851 -0.737856

2019-01-05 0.568413 -0.289317 -1.577237 -0.171491

2019-01-06 1.575756 -0.978803 0.728931 -0.460711

df2=pd.dataframe()

類別是不限制的 但是每列的資料必須是一樣的 每列之間可以不同

字典裡面的key代表索引列 value 是可以能夠轉化為series的物件

a   	b        c  d	 e	     f

0 1.0 2019-01-01 1.0 3 test abc

1 1.0 2019-01-01 1.0 3 train abc

2 1.0 2019-01-01 1.0 3 test abc

3 1.0 2019-01-01 1.0 3 train abc

df.head(10) 如果不填寫則預設前五行

df.tail(3) 顯示後3行

df.dtypes 顯示每列的資料型別

df.index 顯示每行的索引

df.columns 顯示每列的索引名稱

df.values 顯示資料

df=pd.read_excel(『kkkkk』) 'kkkkk』是本目錄下檔案或者檔案的絕對路徑\

pd.read_excel 詳細了解一下。比如多個sheet如何選中其中乙個,還有選擇某個區域匯入。。等等

csdn鏈結

df.iloc[0] 顯示第一行的資訊

df.iloc[0:5] 左閉右開的取件

df.loc[0:5] 閉區間

新增一行

先構造字典資料

dit=dit=

s=pd.series(dit)

s.name=38738

刪除一行
df=df.drop([series.name])
列名稱

df.columns

檢視某列的資訊

df[『名字』][:5] 檢視 名字 列 前5行的資料

df[[『名字』,『型別』]] 檢視多列的資料

增加一列

df[『序號』]=range(1,len(df)+1)

刪除一列

df.drop(「序號」,axis=1) 因為不是drop行 要寫明白 列名「序號」 , axis=0 是行 axis=1 為列

df.loc[1,『名字』] 返回 第二行 名字列的資料

df.loc[[行標籤],[列標籤]]

df[「產地」] == 「美國」 得到df中產地是美國的乙個 bool series

再根據bool資料進行選擇

df[df[『產地』]==「美國」] 篩選出符合條件的資料

df[df[『產地』]==「美國」][:5]選出前五行\

df[(con_1)&(con_2)] 兩個條件 & and 的關係

df[(df.產地==「美國」) & (df.評分》()]

df[((con_1)|(com_2))&(con_3)]

方法 說明

dropna

fillna

isnull

notnull\

方法說明

dropna

根據標籤中的缺失值進行過濾,刪除缺失值

fillna

對缺失值進行填充

isnull

返回乙個布林值物件,判斷哪些值是缺失值

notnull

isnull的否定式

判斷缺失值

df.isnull()

df[『columns_name』].isnull() 判斷某列缺失值 返回 bool值

df[df[『columns_name』].isnull()] 返回 缺失值的dataframe

填充缺失值

df[『評分』].fillna(0,inplace=true) 用 數字 0 填充評分列缺失值,並且直接替換原資料、

df1=df.fillna(「未知資料」) 會將所有控制都填充為 「未知資料」 謹慎使用。

刪除缺失值

df.dropna()

引數: how=「all」 刪除全未控制的行或者列

inplace=true 覆蓋之前的資料 df 會變成刪除掉缺失值之後的陣列

axis=0 選擇行或者列\

一般異常值都很少,在不影響資料整體份的情況下,直接刪除就好了

df=df[df.投票人數》0] 直接篩選出合理數值

完成資料處理之後,我們將資料儲存到excel中

df.to_excel(「filename」) filename 未絕對或者相對路徑 是資料儲存的位置

MySQL初級培訓 Mysql初級學習

此篇文章前提是大家已經在自己的電腦上安裝好相應的環境。下面介紹mysql的基本命令 mysql uroot p 進入mysql 如圖所示證明成功了,show databates 檢視已有資料庫,此時我的資料庫有這麼多,python3是我自己建立的,create database python3 ch...

List,Set,Map初級學習

1.list和set都繼承自collection,map繼承自己的介面 2.list包含arraylist 底層為陣列,查詢快,增刪慢,執行緒不安全,效率高 vector 底層為陣列,查詢快,增刪慢,執行緒安全效率低 linkedlist 底層為鍊錶,查詢慢,增刪快,執行緒不安全效率高 3.set ...

Pandas學習筆記 Pandas概覽(一)

pandas是python的核心資料分析支援庫,提供了快速 靈活 明確的資料結構,旨在簡單 直觀的處理關係型 資料型的資料。pandas適用於處理以下型別的資料 維數名稱描述1 series 帶標籤的一維同構陣列 2dataframe 帶標籤的,大小可變的,二維異構 pandas資料結構就像是低維資...