初步認識pandas

2021-09-09 06:51:15 字數 4370 閱讀 4139

pandas應用

import pandas as pd
選取等於某些值的行記錄 用 ==

df.loc[df[『column_name』] == some_value]

選取某列是否是某一型別的數值 用 isin

df.loc[df[『column_name』].isin(some_values)]

多種條件的選取 用 &

df.loc[(df[『column』] == some_value) & df[『other_column』].isin(some_values)]

選取不等於某些值的行記錄 用 !=

df.loc[df[『column_name』] != some_value]

isin返回一系列的數值,如果要選擇不符合這個條件的數值使用~

df.loc[~df[『column_name』].isin(some_values)]

'''df.sort_values(by="sales" , ascending=false) by 指定列 ascending

想顯示結果的話,可以設定另乙個變數 b=df.sort_values(by="sales" , ascending=false) by 指定列 ascending

需print(b)

'''

下面**是在jupyter上實現的

import pandas as pd

c = pd.series([1,2,3,4,5,6])

cout[4]:

0 1

1 2

2 3

3 4

4 5

5 6

dtype: int64

c = pd.series([1,2,3,4,5,6],index=['a','b','c','d','e','f'])

cout[6]:

a 1

b 2

c 3

d 4

e 5

f 6

dtype: int64

d = pd.series([90,80,100,60,80,60],index=['數學','語文','化學','地理','**','體育'])

dout[8]:

數學 90

語文 80

化學 100

地理 60

** 80

體育 60

dtype: int64

d = pd.dataframe()

dout[10]:

數學 語文

0 80 88

1 80 79

2 70 90

score = pd.read_excel('score.xlsx')

score

out[12]:

數學 語文 化學 地理 ** 體育 性別

0 90 80 100 60 80 60 男

1 95 76 60 90 65 20 女

2 70 69 70 65 90 90 男

3 92 73 89 82 60 57 男

4 72 30 60 90 50 20 女

5 70 90 100 86 100 30 女

score.loc[:,['數學','化學']]

out[13]:

數學 化學

0 90 100

1 95 60

2 70 70

3 92 89

4 72 60

5 70 100

score.info()

rangeindex: 6 entries, 0 to 5

data columns (total 7 columns):

數學 6 non-null int64

語文 6 non-null int64

化學 6 non-null int64

地理 6 non-null int64

** 6 non-null int64

體育 6 non-null int64

性別 6 non-null object

dtypes: int64(6), object(1)

memory usage: 416.0+ bytes

score.describe()

out[15]:

數學 語文 ... ** 體育

count 6.000000 6.000000 ... 6.000000 6.000000

mean 81.500000 69.666667 ... 74.166667 46.166667

std 11.995833 20.713924 ... 19.083151 27.787887 #標準差

min 70.000000 30.000000 ... 50.000000 20.000000

25% 70.500000 70.000000 ... 61.250000 22.500000

50% 81.000000 74.500000 ... 72.500000 43.500000

75% 91.500000 79.000000 ... 87.500000 59.250000

max 95.000000 90.000000 ... 100.000000 90.000000

[8 rows x 6 columns]

score.head(3)

out[16]:

數學 語文 化學 地理 ** 體育 性別

0 90 80 100 60 80 60 男

1 95 76 60 90 65 20 女

2 70 69 70 65 90 90 男

score.tail(2)

out[17]:

數學 語文 化學 地理 ** 體育 性別

4 72 30 60 90 50 20 女

5 70 90 100 86 100 30 女

score_des = score.describe()

score_des.columns

out[21]: index(['數學', '語文', '化學', '地理', '**', '體育'], dtype='object')

score_des.loc[:,['化學','地理']]

out[22]:

化學 地理

count 6.000000 6.000000

mean 79.833333 78.833333

std 18.872378 13.090709 #標準差

min 60.000000 60.000000

25% 62.500000 69.250000

50% 79.500000 84.000000

75% 97.250000 89.000000

max 100.000000 90.000000

score_des.iloc[0:3,1:3]

out[23]:

語文 化學

count 6.000000 6.000000

mean 69.666667 79.833333

std 20.713924 18.872378

score_des.loc['count':'std','語文':'**']

out[24]:

語文 化學 地理 **

count 6.000000 6.000000 6.000000 6.000000

mean 69.666667 79.833333 78.833333 74.166667

std 20.713924 18.872378 13.090709 19.083151

score['語文'].min()

out[27]: 30

score['語文'].max()

out[28]: 90

初步認識繼承

include stdafx.h include using namespace std 構造方式跟類內類物件是一樣的 父類 info 派生類 sci 派生類 sci 父類 info struct info 父類 void outputinfo info info private int numb ...

初步認識redis

1.什麼redis 2.為什麼使用redis 3.什麼場合使用redis 4.redis的好處 5.編譯安裝redis 6.redis資料結構 1.什麼是redis redis是remote dictionary server 遠端資料服務 的縮寫,是義大利人antirez開發的一款記憶體快取記憶體...

kafka初步認識

producer 訊息生產者,向kafka集 送訊息,它是乙個程式 consumer 訊息消費者,從kafka集群獲取資料,它是乙個程式 broker kafka集群的最小組成單元,它是乙個服務 topic kafka將producer產生的訊息按照topic進行分類 partition kafka...