python資料分析之pandas（10）資料轉換

通過duplicated()函式可以找出重複的行，操作如下：

frame.duplicated() //判斷是否重複行

frame[frame.duplicated()] //刪除重複行

frame.drop_duplicates() //刪除重複行

示例如下：

>>
> frame = pd.dataframe(
)>>
> frame.duplicated()0
false
1false
2false
3true
dtype:
bool
>>
> frame[frame.duplicated()]
color value
3 black 3
>>
> frame.drop_duplicates(
) color value
0 white 1
1 white 2
2 black 3
>>
>

ser.replace(np.nan, 0) //series元素替換

newcolors = //key為舊元素，value為新元素

frame.replace(newcolors) //dataframe通過對映替換元素

可以通過dict定義一列新的資訊，key為已存在列的值，value為新的列的值

>>
> frame = pd.dataframe(
)>>
> frame
color
0 red
1 black
>>
> price =
>>
> frame[
'price'
]= frame[
'color'].
map(price)
>>
> frame
color price
0 red 1
1 black 2

這裡通過frame[『price』] = frame[『color』].map(price)，對映出乙個新列，列名為price

同樣還有其它方式如：

frame[『d』] = frame[『price』].map(lambda x: x*2) //lambda表示式，新列名為d，值為price列2倍

frame[『d』] = frame[『price』].map(double) //自定義函式double

**如下：

>>
>
defdouble
(x):..
.return x*2.
..>>
> frame[
'd']
= frame[
'price'].
map(double)
>>
> frame
color price d
0 red 1
21 black 2
4>>
>

通過rename函式可以重新命名索引（可更改部分索引）和列名：

frame.rename(index=, columns=, inplace=true),相關引數如下:

index //更改索引，預設為更改索引

inplace //替換呼叫物件本身，否則只返回新的物件

Python之資料分析（寶可夢資料分析）

在此感謝阿里雲天池平台提供的學習平台，並提供相應的教程供小白們學習資料分析。seaborn庫 seaborn 是基於 python 且非常受歡迎的圖形視覺化庫，在 matplotlib 的基礎上，進行了更高階的封裝，使得作圖更加方便快捷。即便是沒有什麼基礎的人，也能通過極簡的做出具有分析價值而又十...

python資料分析之Numpy

numpy系統是python的一種開源的數值計算擴充套件 ndarray 多維陣列所有元素必須是相同型別 ndim屬性，維度個數 shape屬性，各維度大小 dtype屬性，資料型別 coding utf 8 import numpy as np 生成指定維度的隨機多維資料 data np.ran...

Python 資料分析之scipy

scipy是一組專門解決科學計算中各種標準問題域的包的集合，主要包括下面這些包匯入積分模組 import numpy as np 匯入numpy庫 from scipy import integrate 匯入定積分模組scipy.integrate.quad func,a,b 計算單重積分，引數分...

python資料分析之pandas（10）資料轉換

Python之資料分析（寶可夢資料分析）

python資料分析之Numpy

Python 資料分析之scipy

相關推薦