一 Python資料分析之Pandas學習

2021-09-30 20:25:11 字數 3955 閱讀 3238

pandas是基於numpy的一種工具,該工具是為了解決資料分析任務而建立的。pandas納入了大量庫和一些標準的資料模型,提供了高效地操作大型資料集所需的工具。pandas提供了大量能使我們快速便捷地處理資料的函式和方法,是python的乙個資料分析包。

pandas模組具有高效能、高效率和高水平,使之成為資料分析最有效的庫。

pandas的資料結構中,常用的有series和dataframe兩種

1、series:一維陣列,與numpy中的一維array類似。二者與python基本的資料結構list也很相近。series如今能儲存不同種資料型別,字串、boolean值、數字等都能儲存在series中。

series與list的區別是:list中的元素可以是不同的資料型別,而series中則只允許儲存有相同的資料型別,這樣是為了更有效地的使用記憶體,提高運算效率。

2、time- series:以時間為索引的series。

3、dataframe:二維的**型資料結構。很多功能與r中的data.frame類似。可以將dataframe理解為series的容器。

4、panel :三維的陣列,可以理解為dataframe的容器。

1、匯入資料集的語法為:

pd.read_excel(filename) #匯入excel格式檔案中的資料

pd.read_excel(filename) #匯入excel格式檔案中的資料

2、建立excel表

import pandas as pd      #匯入pandas模組,命名為pd

a = pd.dataframe() #建立id列和user列

a = a.set_index('id') #以id為索引

print(a)

a.to_excel('d:\pandas\pytest.xlsx') #新建pytest.xlsx檔案,將以上資訊保持到該檔案中

print('成功啦!')

執行結果:

3、檢視資料框

data.info() #檢視資料框(data frame)的索引、資料型別及記憶體資訊

import pandas as pd

data = pd.read_excel('d:\pandas\pytest.xlsx')

data.info()

4、檢視資料框行與列:

data.shape #檢視資料框的行數和列數

import pandas as pd      

data = pd.read_excel('d:\pandas\pytest.xlsx')

print(data.shape)

#執行結果:(3, 2)

5、檢視資料前n行、中間某幾行或後n行:

data.head(n) #檢視資料框的前n行

data.tail(n) #檢視資料框的後n行

data.iloc[a:b,c:d] #檢視第a+1行到b行,c+1列到d列的資料

import pandas as pd

data = pd.read_excel('d:\pandas\pytest2.xlsx')

print(data)

print("前2行的資料為:")

print(data.head(2))

print("後1行的資料為:")

print(data.tail(1))

print("2、3行與2、3列交叉的資料為:")

print(data.iloc[1:3, 1:3])

1、檢視某一列的資料

data[col] #以陣列series的形式返回選取的列

import pandas as pd

data = pd.read_excel('d:\pandas\pytest2.xlsx')

print("檢視name列的資料")

print("檢視name列、age列的資料")

2、資料中非空值的處理

data.isnull() #檢查資料中空值出現的情況,並返回乙個布林值(true或false組成的列)

data.notnull() #檢視資料框中的非空值

data.dropna(axis = 1) #移除資料框中包含空值的列

data.fillna(x) #將資料框中的所有空值替換為x

import pandas as pd

data = pd.read_excel('d:\pandas\pytest3.xlsx')

print(data.fillna('變身'))

3、資料框中值的替換

import pandas as pd

data = pd.read_excel('d:\pandas\pytest4.xlsx')

data2 = data.replace('變身', '0')

data2.to_excel('d:\pandas\pytest4.xlsx')

print('ok')

#執行結果:ok

Python之資料分析(寶可夢資料分析)

在此感謝阿里雲天池平台提供的學習平台,並提供相應的教程供小白們學習資料分析。seaborn庫 seaborn 是基於 python 且非常受歡迎的圖形視覺化庫,在 matplotlib 的基礎上,進行了更高階的封裝,使得作圖更加方便快捷。即便是沒有什麼基礎的人,也能通過極簡的 做出具有分析價值而又十...

python資料分析之Numpy

numpy系統是python的一種開源的數值計算擴充套件 ndarray 多維陣列 所有元素必須是相同型別 ndim屬性,維度個數 shape屬性,各維度大小 dtype屬性,資料型別 coding utf 8 import numpy as np 生成指定維度的隨機多維資料 data np.ran...

Python 資料分析之scipy

scipy是一組專門解決科學計算中各種標準問題域的包的集合,主要包括下面這些包 匯入積分模組 import numpy as np 匯入numpy庫 from scipy import integrate 匯入定積分模組scipy.integrate.quad func,a,b 計算單重積分,引數分...