一 Python資料分析之Pandas學習

pandas是基於numpy的一種工具，該工具是為了解決資料分析任務而建立的。pandas納入了大量庫和一些標準的資料模型，提供了高效地操作大型資料集所需的工具。pandas提供了大量能使我們快速便捷地處理資料的函式和方法,是python的乙個資料分析包。

pandas模組具有高效能、高效率和高水平，使之成為資料分析最有效的庫。

pandas的資料結構中，常用的有series和dataframe兩種

1、series：一維陣列，與numpy中的一維array類似。二者與python基本的資料結構list也很相近。series如今能儲存不同種資料型別，字串、boolean值、數字等都能儲存在series中。

series與list的區別是：list中的元素可以是不同的資料型別，而series中則只允許儲存有相同的資料型別，這樣是為了更有效地的使用記憶體，提高運算效率。

2、time- series：以時間為索引的series。

3、dataframe：二維的**型資料結構。很多功能與r中的data.frame類似。可以將dataframe理解為series的容器。

4、panel ：三維的陣列，可以理解為dataframe的容器。

1、匯入資料集的語法為：

pd.read_excel(filename) #匯入excel格式檔案中的資料

2、建立excel表

import pandas as pd      #匯入pandas模組，命名為pd
a = pd.dataframe() #建立id列和user列
a = a.set_index('id') #以id為索引
print(a)
a.to_excel('d:\pandas\pytest.xlsx') #新建pytest.xlsx檔案，將以上資訊保持到該檔案中
print('成功啦！')

執行結果：

3、檢視資料框

data.info() #檢視資料框（data frame）的索引、資料型別及記憶體資訊

import pandas as pd
data = pd.read_excel('d:\pandas\pytest.xlsx')
data.info()

4、檢視資料框行與列：

data.shape #檢視資料框的行數和列數

import pandas as pd      
data = pd.read_excel('d:\pandas\pytest.xlsx')
print(data.shape)
#執行結果：(3, 2)

5、檢視資料前n行、中間某幾行或後n行：

data.head(n) #檢視資料框的前n行

data.tail(n) #檢視資料框的後n行

data.iloc[a:b,c:d] #檢視第a+1行到b行，c+1列到d列的資料

import pandas as pd
data = pd.read_excel('d:\pandas\pytest2.xlsx')
print(data)
print("前2行的資料為：")
print(data.head(2))
print("後1行的資料為：")
print(data.tail(1))
print("2、3行與2、3列交叉的資料為：")
print(data.iloc[1:3, 1:3])

1、檢視某一列的資料

data[col] #以陣列series的形式返回選取的列

import pandas as pd
data = pd.read_excel('d:\pandas\pytest2.xlsx')
print("檢視name列的資料")
print("檢視name列、age列的資料")
2、資料中非空值的處理
data.isnull() #檢查資料中空值出現的情況，並返回乙個布林值（true或false組成的列）
data.notnull() #檢視資料框中的非空值
data.dropna(axis = 1) #移除資料框中包含空值的列
data.fillna(x) #將資料框中的所有空值替換為x
import pandas as pd
data = pd.read_excel('d:\pandas\pytest3.xlsx')
print(data.fillna('變身'))
3、資料框中值的替換
import pandas as pd
data = pd.read_excel('d:\pandas\pytest4.xlsx')
data2 = data.replace('變身', '0')
data2.to_excel('d:\pandas\pytest4.xlsx')
print('ok')
#執行結果：ok
 Python之資料分析（寶可夢資料分析）
在此感謝阿里雲天池平台提供的學習平台，並提供相應的教程供小白們學習資料分析。seaborn庫 seaborn 是基於 python 且非常受歡迎的圖形視覺化庫，在 matplotlib 的基礎上，進行了更高階的封裝，使得作圖更加方便快捷。即便是沒有什麼基礎的人，也能通過極簡的 做出具有分析價值而又十...
python資料分析之Numpy
numpy系統是python的一種開源的數值計算擴充套件 ndarray 多維陣列 所有元素必須是相同型別 ndim屬性，維度個數 shape屬性，各維度大小 dtype屬性，資料型別 coding utf 8 import numpy as np 生成指定維度的隨機多維資料 data np.ran...
Python 資料分析之scipy
scipy是一組專門解決科學計算中各種標準問題域的包的集合，主要包括下面這些包 匯入積分模組 import numpy as np 匯入numpy庫 from scipy import integrate 匯入定積分模組scipy.integrate.quad func,a,b 計算單重積分，引數分...

一 Python資料分析之Pandas學習

Python之資料分析（寶可夢資料分析）

python資料分析之Numpy

Python 資料分析之scipy

相關推薦