python資料分析1

2021-10-09 05:56:46 字數 3677 閱讀 5156

1.3檢視列、行、單元格

為啥要用python中的pandas庫進行資料分析,用excel不可以嗎?不可以,excel處理上萬條資料時通常會宕機或者出錯,python不會有這種問題。相信鯉魚學長,在學習乃至日後工作中,pandas庫將會風靡相當長一段時間。

示例:pandas 是基於numpy 的一種工具,該工具是為了解決資料分析任務而建立的。

**如下(示例):

import pandas 

import pandas as pd#這裡是給pandas函式取了乙個名字:pd,後面呼叫時寫pd就行。

**如下(示例):

df=pd.

read_csv

(r'c:\users\wly\desktop\python資料分析(活用pandas庫)\pandas_for_everyone-master\data\gapminder.tsv'

,sep=

'\t'

)print

(df.

head()

)

1、預設情況下,read_csv函式會讀取逗號分隔檔案。

2、這裡將sep引數設定為\t,是指明使用製表符分隔的意思。

3、呼叫head()方法,只顯示前5行資料。

執行結果如下:

country continent  year  lifeexp       pop   g***ercap

0 afghanistan asia 1952

28.801

8425333

779.445314

1 afghanistan asia 1957

30.332

9240934

820.853030

2 afghanistan asia 1962

31.997

10267083

853.100710

3 afghanistan asia 1967

34.020

11537966

836.197138

4 afghanistan asia 1972

36.088

13079460

739.981106

df=pd.

read_csv

(r'c:\users\wly\desktop\python資料分析(活用pandas庫)\pandas_for_everyone-master\data\gapminder.tsv'

,sep=

'\t'

)print

(type

(df)

)

執行結果如下:

>
print

(df.shape)

執行結果如下:

(

1704,6

)

也就是說這個資料集有1704行,6列。

print

(df.columns)

執行結果如下:

index([

'country'

,'continent'

,'year'

,'lifeexp'

,'pop'

,'g***ercap'

], dtype=

'object'

)

這裡可以看到,列名的型別是object。

print

(df.dtypes)

執行結果如下:

country       object

continent object

year int64

lifeexp float64

pop int64

g***ercap float64

dtype: object

pandas型別

python型別

說明object

string

最常用的資料型別

int64

int整型

float64

float

帶小數的數字

datatime64

datatime

python標準庫里包含datatime,但是預設不載入,需要匯入才能用

獲取資料中的某列,比如獲取country列。,這裡將她儲存到乙個變數裡。

country_df=df[

'country'

]print

(country_df.

head()

)#顯示前5行

print

(country_df.

tail()

)#顯示後5行

執行結果如下:

#顯示前5行

0 afghanistan

1 afghanistan

2 afghanistan

3 afghanistan

4 afghanistan

name: country, dtype: object

#顯示後5行

1699 zimbabwe

1700 zimbabwe

1701 zimbabwe

1702 zimbabwe

1703 zimbabwe

name: country, dtype: object

通過列名獲取多列。

subset=df[

['country'

,'continent'

,'year']]

print

(subset.

head()

)print

(subset.

tail()

)

執行結果如下:

country continent  year

0 afghanistan asia 1952

1 afghanistan asia 1957

2 afghanistan asia 1962

3 afghanistan asia 1967

4 afghanistan asia 1972

country continent year

1699 zimbabwe africa 1987

1700 zimbabwe africa 1992

1701 zimbabwe africa 1997

1702 zimbabwe africa 2002

1703 zimbabwe africa 2007

我用的python版本是python3.7 64位,pycharm是2017.1 64位。大家根據自己的電腦來安裝python和編譯器。

python資料分析1

在github上發現了乙個不錯的教程 雖然是全英文的,找了下沒有翻譯的版本,但還是決定看這個。寫個部落格記些筆記。昨天晚上看了第一張引子,大概說了下為啥用python,jupyter,他們的好處和新特性,以及如何安裝,沒有啥特別的,中文講這內容的很多。1.1 直接通過anaconda可以開啟jupy...

python資料分析基礎1

filter 函式用於過濾序列,過濾掉不符合條件的元素,返回由符合條件元素組成的新列表 接收兩個引數,第乙個為函式,第二個為序列,序列的每個元素作為引數傳遞給函式進行判斷,返回true或false,將返回true的元素放到新列表中。def ou n if n 2 0 return true else...

小白學 Python 資料分析(1) 資料分析基礎

人工植入廣告 ps 小編最近兩天偷了點懶,好久沒有發原創了,最近是在 csdn 開通了乙個付費專欄,用來發布去年寫的沒有出版的書稿,感興趣的同學可以去看下 已經上傳了一部分,第一章設定為了試讀章節 主要是講 springcloud 微服務方面的一些內容,整體排版下來如果是印在實體書上應該會超過 40...