python pandas庫具體用法

2021-07-30 20:57:18 字數 3304 閱讀 3782

一 學習資料探勘,如果是用python的話,必須掌握好科學計算的相關庫,我先學習了pandas的一些具體操作**
#-*- encoding:utf-8 -*-

import numpy as np

import os

import pylab as pl

import pandas as pd

from pandas import series,dataframe

import matplotlib.pyplot as plt

# s = pd.series([1, 2, 3, np.nan, 4, 5])

# # print s

# dates = pd.date_range('20171001',periods=6)

# # print dates

# df = pd.dataframe(np.random.randn(6, 4), index=dates, columns=list('abcd'))

# #index索引 columns 縱列

# # print df

# df2 = pd.dataframe()

# right = pd.dataframe()

# g = pd.merge(left,right, on ='key')# x*y的形式相加

# df = pd.dataframe(np.random.randn(10,4),columns=['a','b','c','d'])

# s = df.iloc[3]#第三行位置

# df = pd.dataframe()

# df = df.groupby('b').sum()#把b列中相同的值對應的值求和

# df = df.groupby(['a','b']).sum()#把ab列兩個係數當做key,對相同的key的值求和

# tuples = list(zip(*[['bar', 'bar', 'baz', 'baz',

# 'foo', 'foo', 'qux', 'qux'],

# ['one', 'two', 'one', 'two',

# 'one', 'two', 'one', 'two']]))

# index = pd.multiindex.from_tuples(tuples,names=['first','second'])#定義兩個屬性

# df = pd.dataframe(np.random.randn(8,2),index=index,columns=['a','b'])

# df2 = df[:5]

# print df2

# stacked = df2.stack#展示每行乙個資料,a,b作為key

# stacked.unstack()#返回原來結構

# print stacked

# df = pd.dataframe()

# print df

# # df= pd.pivot_table(df, values='d', index=['a', 'b'], columns=['c'])#產生資料透視表

# # print df

# rng = pd.date_range('20171026',periods=100,freq='h')

# ts = pd.series(np.random.randint(0,500,len(rng)),index = rng)#通過時間取樣

# g = ts.resample('5min').sum()#轉換頻率

# rng = pd.date_range('3/6/2012 00:00', periods=5, freq='d')

# ts = pd.series(np.random.randn(len(rng)), rng)

# ts_utc = ts.tz_localize('utc')#時區表示

# ts_utc.tz_convert('us/eastern')#改變為其他時區

# print ts

# rng = pd.date_range('1/1/2012', periods=5, freq='m')

# ts = pd.series(np.random.randn(len(rng)), index=rng)

# ps = ts.to_period()#去除日

# # ps.to_timestamp()#新增 日

# df = pd.dataframe()

# df["grade"] = df["raw_grade"].astype("category")#轉換原始類別為分類資料型別

# df["grade"].cat.categories = ["very good", "good", "very bad"]#重新命名分類為更有意義的名稱

# df["grade"] = df["grade"].cat.set_categories(["very bad", "bad", "medium", "good", "very good"])#按照這個順序排列,改變原來順序

# s = df.sort(columns="grade")#排列分類中的順序,不是按詞彙排列.

# print df.groupby("grade").size()# 類別列分組,並且也顯示空類別.顯示每個類別的數量

ts = pd.series(np.random.randn(1000), index=pd.date_range('1/1/2000', periods=1000))

# ts = ts.cumsum()

# ts.plot()

# pl.show()

# df = pd.dataframe(np.random.randn(1000, 4), index=ts.index,

# columns=['a', 'b', 'c', 'd'])

# df = df.cumsum()

# df.plot()

# plt.legend(loc='best')

# pl.show()

df.to_csv('foo.csv')

pd.read_csv('foo.csv')

df.to_excel('foo.xlsx', sheet_name='sheet1')#寫入excel檔案

pd.read_excel('foo.xlsx', 'sheet1', index_col=none, na_values=['na'#讀取excel檔案

Python Pandas庫處理excel表

讀取 儲存excel表 data pandas.read excel filepath data.to excel filepath,index none index none表示不將dataframe的行索引存入excel讀取dataframe某行 列 讀取data中行索引為5 6,列索引為1 3...

Python Pandas庫與資料處理

讀取資料import pandas as pd pd.read csv 觀察資料 print dtypes 每列的資料型別 print head n 前n行資料 print tail n 後n行資料 print columns 每一列的名字 print shape 行列數 print loc 0 索...

Python Pandas庫入門及基礎操作

pandas提供高效能易用資料型別和分析工具,可以用import pandas as pd引入,通常簡寫為pd。pandas主要提供兩個資料型別 series 一維 和dataframe 多維 基於上述資料型別提供各類操作 基本操作 運算操作 特徵類操作 關聯類操作等。series型別由一組資料及與...