python庫 Pandas學習筆記

2021-10-01 18:06:44 字數 2686 閱讀 8184

food_info = pandas.read_csv(「檔名」) 讀取csv檔案

print(type(food_info)) 顯示food_info的型別,csv檔案的型別是dataframe

print(food_info.dtypes) 顯示每一列的特徵儲存的是什麼型別,可以看到在csv檔案中,str型別被稱作object

food_info.head()顯示部分資料,預設前5條資料若是head(4)顯示前4行

food_info.tail() 顯示尾幾行

food_info.columns 顯示列名

food_info.shape 行*列

food_info.loc[0] 第乙個樣本的資料

ndb_col = food_info[「列名」] 取一列資料

若想取多列,則另column = [列名1,列名2]

col = food_info[column] ,這樣就取出了兩行

col_names = food_info.columns.tolist() 將每一列的列名提取出來做成list

ndb_col = food_info[「列名」] /1000 就是將該列資料全部除以1000

food_info[ 新列名] = alist 對dataframe新加入乙個列名,並給出他說對應的值

ndb_col = food_info[「列名」] .max() 找出一列的最大值

food_info.sort_values(「列名」,inplace= true) #給某一列的值排序

inplace判斷是新生成乙個dataframe還是在原基礎上改,預設是從小到大排序。若想從大到小排序,指令如下

food_info.sort_values(「列名」,inplace= true,ascending=false)

titanic資料集

age= titanic_survival[「age」]

age_is_null = pd.isnull(age) #判斷age裡的值是否缺失,返回的是布林值,以及與它對應的index,true為缺失

age_null_true = age[ age_is_null ] 返回age_is_null 裡為true的值,即缺失值,左邊有index,如下:

存在缺失值,會影響後續計算,需要處理一下。

若想去掉該樣本:

new_titanic_surval = titanic_survival.dropna(axis = 0,subset =[「age」,「***」])

若指定兩列某些樣本存在缺失值,則去掉該樣本

若需要計算的值,與兩列有關。例如分別計算三種等級船票的生還率:

passenger_survival = titanic_survival.pivot_table(index = 『pclass』 , values = 「survived」,aggfunc = np.mean) #預設就是求均值的操作

print(passenger_survival )

計算兩列以上的值

passenger_survival = titanic_survival.pivot_table(index = 『embarked』 , values = [「survived」,「fare」],aggfunc = np.sum)

def hundredth_row(column):

hundredth_item = colomn.loc[99]

return hundreth_item

當然,你可以定義任何你想處理的函式,比如根據年齡判斷是成年人還是小孩。

所用資料集如下:

series是dataframe裡的一行或者一列,可以這麼說,dataframe是由series構成的。

import pandas as pd

from pandas import series

fandango = pd.read_csv(「fandango_score_comparision.csv」)

series_film = fandango [「film」]# series_film就是series的type

series_rt = fandango[「rottentomatoes」]

film_names = series_film.values# film_names 的型別是ndarray,說明dataframe裡的結構是series,series裡面的結構是ndarray.pandas 是封裝在numpy之上的。

series_custom = series(series_rt, index = series_film )#series可以把str當作索引值

series_custom.sort_index()#按照series的鍵排序

series_custom.sort_values()#按照series的值排序

其實dataframe也是可以將str當作index的

fandango_film = fandango.set_index(『film』,drop= false)#將film當作索引值

python下pandas庫的學習

python中的pandas模組進行資料分析。接下來pandas介紹中將學習到如下8塊內容 1 資料結構簡介 dataframe和series 2 資料索引index 3 利用pandas查詢資料 4 利用pandas的dataframes進行統計分析 5 利用pandas實現sql操作 6 利用p...

Python學習 Pandas庫基礎知識

總結完了numpy庫的基礎知識,當然不能少了pandas庫,pd庫是基於numpy的,它有兩種資料形式 series和dataframe。這篇文章總結的都是對dataframe格式的資料進行操作。series的操作和對ndarray格式的操作很像,可以參照numpy的處理方法。它們的不同有乙個博主寫...

pandas庫學習記錄

在接觸了一點python的資料分析後,發現有乙個眾人很推崇的pandas庫。據說,與numpy結合能夠實現許多強大的使資料分析功能。但其實在接觸一段時間之後,我發現,還是很難掌握這個庫的精髓。為了避免長時間遺忘,我把這一系列實踐記錄下來。引用 import pandas 一般都寫作 import p...