Python資料分析入門

2021-09-07 06:36:48 字數 2628 閱讀 6059

原文:

最近,analysis with programming加入了planet python。作為該**的首批特約部落格,我這裡來分享一下如何通過python來開始資料分析。具體內容如下:

資料匯入

資料變換;

資料統計描述;

假設檢驗

視覺化;

建立自定義函式。

這是很關鍵的一步,為了後續的分析我們首先需要匯入資料。通常來說,資料是csv格式,就算不是,至少也可以轉換成csv格式。在python中,我們的操作如下:

python

1

2

3

4

5

6

7

8

importpandas aspd

# reading data locally

df=pd.read_csv('/users/al-ahmadgaidasaad/documents/d.csv')

# reading data from web

data_url=""

df=pd.read_csv(data_url)

為了讀取本地csv檔案,我們需要pandas這個資料分析庫中的相應模組。其中的read_csv函式能夠讀取本地和web資料。

既然在工作空間有了資料,接下來就是資料變換。統計學家和科學家們通常會在這一步移除分析中的非必要資料。我們先看看資料:

python

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

# head of the data

printdf.head()

# output

abra  apayao  benguet  ifugao  kalinga

012432934148330010553

1415892354287806335257

217871922195510744544

3171521450135361960731687

412662385253033158520

# tail of the data

printdf.tail()

# output

abra  apayao  benguet  ifugao  kalinga

7425052087835191973716513

75603034006570621942261808

766311675635611591023349

77133453890225831109668663

7826231826437451678716900

對r語言程式設計師來說,上述操作等價於通過print(head(df))來列印資料的前6行,以及通過print(tail(df))來列印資料的後6行。當然python中,預設列印是5行,而r則是6行。因此r的**head(df, n = 10),在python中就是df.head(n = 10),列印資料尾部也是同樣道理。

在r語言中,資料列和行的名字通過colnames和rownames來分別進行提取。在python中,我們則使用columns和index屬性來提取,如下:

python

1

2

3

4

5

6

7

8

9

10

11

# extracting column names

printdf.columns

# output

index([u'abra',u'apayao',u'benguet',u'ifugao',u'kalinga'],dtype='object')

# extracting row names or the index

printdf.index

# output

int64index([0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,51,52,53,54,55,56,57,58,59,60,61,62,63,64,65,66,67,68,69,70,71,72,73,74,75,76,77,78

Python資料分析入門筆記

資料基本處理 資料缺失值處理有好幾種對應的函式,接下來介紹三種我學習的函式dropna,fillna,replace.這三種函式功能上的區別,以及不同的適用場景.這三種函式都在pandas裡,所以寫 時首先要匯入pandas dropna 函式是用來濾除缺失值的,預設的情況下是清除所有的含有nan資...

python資料分析 numpy入門

import numpy as np import random 建立陣列 t1 np.array random.randint 2,9 for i in range 10 t2 np.arange 1,6 t3 np.array range 1,10,2 print t1 t1 print t2 ...

Python資料分析 Python入門1

例如 用洗衣機洗衣服 先建立2個物件 洗衣機 和 人 針對 洗衣機 這個物件加入一些屬性和方法 洗衣服方法 清洗方法 烘乾方法 針對 人 這個物件加入屬性和方法 加洗衣粉方法 加水方法 然後執行 人.加洗衣粉 人.加水 洗衣機.洗衣服 洗衣機.清洗 洗衣機.烘乾 摘自 除此之外還有jython,ir...