Pandas庫 資料分析處理庫

2021-10-12 16:43:50 字數 724 閱讀 7561

pandas 基於numpy開發,主要資料結構是 series (一維資料)與 dataframe (二維資料)。主要功能:

資料預處理:特徵提取get_dummies

處理缺失資料:表示為 nan;

插入或刪除: dataframe 等多維物件的列;

繪圖:將dataframe按列繪圖plot;

資料對齊:顯式地將物件與一組標籤對齊;

分組:拆分-應用-組合資料集,聚合;

轉換資料:把 python 和 numpy 資料結構裡不規則、不同索引的資料轉換為 dataframe 物件;

資料操作:基於智慧型標籤,對資料集切片、索引(loc,iloc)、子集分解等操作,合併(merge)、連線(join),重塑(reshape)、透視(pivot)資料集,計算相關係數

軸支援結構化標籤:乙個刻度支援多個標籤;

時間序列:支援日期範圍生成、頻率轉換重取樣(resample)、移動視窗統計(rolling)、移動視窗線性回歸、日期位移等時間序列功能。

中文官方參考手冊:

Pandas庫學習筆記(資料分析處理庫)

主要用作 資料預處理 一.資料讀取 pandas.read csv pandas格式 dataframe格式資料流 最核心 此後用df來表示 df.head 幾行 看前幾行資料 預設為前五行 df.tail 幾行 看後幾行 df.columns 返回列的名字 df.shape 返回幾行幾列 df.l...

Python資料分析Pandas庫資料結構 一

import pandas as pd import numpy as np s pd.series 1,2,3,4,np.nan,9,9 s2 pd.date range 20181201 periods 6 periods週期 import pandas as pd import numpy a...

資料分析之pandas庫 series物件

series是pandas中最基本的物件,series類似一種一維陣列。1.生成物件。建立索引並賦值。s1 pd.series 2.檢視索引和值。s1 series 1,2,3,4 index a b c d s1執行結果 a 1 b 2 c 3 d 4 dtype int64 3.series有字...