Python資料分析 pandas 基本操作

2021-10-01 14:10:47 字數 2459 閱讀 6944

# 構建資料集

import pandas as pd

import numpy as np

n =20

dataset = pd.dataframe(

)# 顯示前五行

# 獲取所有元素的值 【返回numpy陣列】

dataset.values

# 獲取資料型別

dataset.dtypes

# 獲取行名

dataset.index #【返回index型別物件】

dataset.index.tolist(

)#【返回list物件】

# 獲取列名

dataset.columns #【返回index型別物件】

dataset.columns.tolist(

)#【返回list物件】

# 對列進行重新命名

dataset.columns =

['姓名'

,'年齡'

,'語文'

,'數學'

,'籍貫'

,'性別'

]# 檢視df前n條資料, 預設5條

df.head(n)

# 檢視df後n條資料, 預設5條

df.tail(n)

# 隨機檢視n條資料

df.sample(n)

# 檢視行數和列數

df.shape(

)# 檢視索引,資料型別和記憶體資訊

df.info(

)

總結:

通常情況下,使用lociloc索引,如果索引結果為一維,則返回series物件;如果索引結果為二維,則返回dataframe物件;

## 位置索引

# 獲取第一行第四列的元素 【返回python物件】

dataset.iloc[0,

4]# 獲取第二行,第

三、第四列的元素

# 注意:同python,最後乙個元素不取

dataset.iloc[1,

2:4]

#【返回series物件】

# 獲取第

三、四行,第一到第四列的元素

dataset.iloc[2:

4,0:

4]#【返回dataframe物件】

## 自定義索引

# 獲取math列

dataset[

'math'

]#【返回series】 或

dataset[

['math']]

#【返回dataframe】 或

dataset.loc[:,

'math'

]#【返回series】

# 獲取math, chinese列

dataset[

['math'

,'chinese']]

#【返回dataframe】 或

dataset.loc[:,

['math'

,'chinese']]

#【返回dataframe】

# 獲取序號為1的學生的資訊

# 注意:此處是序號為1,而不是第1個

dataset.loc[1,

:]#【返回series】

# 獲取序號為3的學生的性別

dataset.loc[3,

'***'

]#【返回python 物件】

# 判斷是否有來自jx省的

# 注意:後面應該加上.values!!!

'jx'

in dataset[

'province'

].values

# 獲取性別為m的學生的名字

dataset.loc[dataset[

'***']==

'm',

'name'

]# 獲取家鄉來自'jb'和'jx'的學生的年齡和性別

dataset.loc[dataset[

'province'

].isin(

['jb'

,'jx'])

,['age'

,'***'

]]

# 將series轉換為list

dataset[

'province'

].tolist(

)

panda資料分析

1.將離散變數進行one hot編碼 在作為示例的租房資料中,分類變數 neighborhood 可以對應三個值 運用 scikit learn 中的 dictvectorizer 函式,我們將以上租房資料的分類變數轉換為 one hot 形式 可以通過呼叫 getfeaturenames 函式,來...

python資料分析筆記中panda 3

1 按照空格將一列的內容分為兩列 1 from pandas import series 2from pandas import dataframe 3from pandas import read csv 45 欄位的拆分 按照固定的字元 拆分已有的字串 6 函式 splite sep,n.exp...

python資料分析

以網路爬蟲為例,網路爬蟲是乙個自動提取網頁的程式,爬蟲是搜尋引擎的第一步,也是最容易的一部。網頁搜尋,建立索引,查詢排序 用c c 效率高,速度塊,適合通用搜尋引擎做往往爬取。但是它的缺點也特別明顯 開發慢,寫起來又臭又長的。而python無論在資料分析還是在指令碼自動化編寫尚都是簡單,易學的。良好...