Python資料分析 Pandas學習

2021-09-06 23:52:19 字數 2347 閱讀 8273

dataframe是乙個類似於**的資料型別,如圖:

data(方框內的資料): numpy ndarray (structured or homogeneous), dict, or dataframe

index(行索引索引) : index or array-like

columns(列索引): index or array-like

dtype(data的資料型別) : dtype, default none

# 新建物件

df = pd.dataframe([1, 2, 3, 4, 5], columns=['cols'], index=['a','b','c','d','e'])

df2 = pd.dataframe([[1, 2, 3],[4, 5, 6]], columns=['col1','col2','col3'], index=['a','b'])

df2結果:

col1  col2  col3

a     1     2     3

b     4     5     6

​# 從csv檔案中讀取資料  

df = pd.read_csv("iris.csv",  

sep=',',

names=["a","b","c","d"])

# 從excel中讀取資料    

df = pd.read_excel("iris.xlsx",

sheetname='***x',

header=true)

loc    list of colum

# 索引為a這一行的資料

df2.loc['a']  

# 結果    

col1    1

col2    2

col3    3

print df2.loc[['a','b']]

# 結果

col1  col2  col3

a     1     2     3

b     4     5     6

print df.loc[df.index[1:3]]

#結果   cols

b     2

c     3

​# 訪問列資料

print df2[['col1','col3']]

# 結果

col1  col3

a     1     3

b     4     6

# dataframe元素求和

# 預設是對每列元素求和

print df2.sum()

#結果col1    5

col2    7

col3    9

​# 行求和

print df2.sum(1)

#結果a     6

b    15

dtype: int64

# 對每個元素乘以2

df_a = pd.dataframe(['wang','jing','hui','is','a','master'],columns=['col6'],index=['a','b','c','d','e','f'])

​dfb = pd.dataframe([1,2,4,5,6,7],columns=['col1'],index=['a','b','c','d','f','g'])

​# 預設合併之接受索引已經存在的值

# 通過指定引數 how,指定合併的方式

print dfb.join(df_a,how='inner')   # 合併兩個dataframe物件的交集

# 結果

col1    col6

a     1    wang

b     2    jing

c     4     hui

d     5      is

f     6  master

​print dfb.join(df_a,how='outer')

#結果   col1    col6

a   1.0    wang

b   2.0    jing

c   4.0     hui

d   5.0      is

e   nan       a

f   6.0  master

g   7.0     nan

panda資料分析

1.將離散變數進行one hot編碼 在作為示例的租房資料中,分類變數 neighborhood 可以對應三個值 運用 scikit learn 中的 dictvectorizer 函式,我們將以上租房資料的分類變數轉換為 one hot 形式 可以通過呼叫 getfeaturenames 函式,來...

python資料分析筆記中panda 3

1 按照空格將一列的內容分為兩列 1 from pandas import series 2from pandas import dataframe 3from pandas import read csv 45 欄位的拆分 按照固定的字元 拆分已有的字串 6 函式 splite sep,n.exp...

python資料分析

以網路爬蟲為例,網路爬蟲是乙個自動提取網頁的程式,爬蟲是搜尋引擎的第一步,也是最容易的一部。網頁搜尋,建立索引,查詢排序 用c c 效率高,速度塊,適合通用搜尋引擎做往往爬取。但是它的缺點也特別明顯 開發慢,寫起來又臭又長的。而python無論在資料分析還是在指令碼自動化編寫尚都是簡單,易學的。良好...