python資料分析之pandas(10)資料轉換

2021-10-02 22:30:56 字數 1807 閱讀 4528

通過duplicated()函式可以找出重複的行,操作如下:

frame.duplicated() //判斷是否重複行

frame[frame.duplicated()] //刪除重複行

frame.drop_duplicates() //刪除重複行

示例如下:

>>

> frame = pd.dataframe(

)>>

> frame.duplicated()0

false

1false

2false

3true

dtype:

bool

>>

> frame[frame.duplicated()]

color value

3 black 3

>>

> frame.drop_duplicates(

) color value

0 white 1

1 white 2

2 black 3

>>

>

ser.replace(np.nan, 0) //series元素替換

newcolors = //key為舊元素,value為新元素

frame.replace(newcolors) //dataframe通過對映替換元素

可以通過dict定義一列新的資訊,key為已存在列的值,value為新的列的值

>>

> frame = pd.dataframe(

)>>

> frame

color

0 red

1 black

>>

> price =

>>

> frame[

'price'

]= frame[

'color'].

map(price)

>>

> frame

color price

0 red 1

1 black 2

這裡通過frame[『price』] = frame[『color』].map(price),對映出乙個新列,列名為price

同樣還有其它方式如:

frame[『d』] = frame[『price』].map(lambda x: x*2) //lambda表示式,新列名為d,值為price列2倍

frame[『d』] = frame[『price』].map(double) //自定義函式double

**如下:

>>

>

defdouble

(x):..

.return x*2.

..>>

> frame[

'd']

= frame[

'price'].

map(double)

>>

> frame

color price d

0 red 1

21 black 2

4>>

>

通過rename函式可以重新命名索引(可更改部分索引)和列名:

frame.rename(index=, columns=, inplace=true),相關引數如下:

index //更改索引,預設為更改索引

inplace //替換呼叫物件本身,否則只返回新的物件

Python之資料分析(寶可夢資料分析)

在此感謝阿里雲天池平台提供的學習平台,並提供相應的教程供小白們學習資料分析。seaborn庫 seaborn 是基於 python 且非常受歡迎的圖形視覺化庫,在 matplotlib 的基礎上,進行了更高階的封裝,使得作圖更加方便快捷。即便是沒有什麼基礎的人,也能通過極簡的 做出具有分析價值而又十...

python資料分析之Numpy

numpy系統是python的一種開源的數值計算擴充套件 ndarray 多維陣列 所有元素必須是相同型別 ndim屬性,維度個數 shape屬性,各維度大小 dtype屬性,資料型別 coding utf 8 import numpy as np 生成指定維度的隨機多維資料 data np.ran...

Python 資料分析之scipy

scipy是一組專門解決科學計算中各種標準問題域的包的集合,主要包括下面這些包 匯入積分模組 import numpy as np 匯入numpy庫 from scipy import integrate 匯入定積分模組scipy.integrate.quad func,a,b 計算單重積分,引數分...