資料分析視覺化 通過去重進行資料清洗

2021-10-05 05:59:04 字數 2546 閱讀 6925

import numpy as np

import pandas as pd

from pandas import series,dataframe

# 讀取剛剛分解處理完的返回資料

link_csv =

'/users/bennyrhys/desktop/資料分析視覺化-資料集/homework/demo_duplicate.csv'

df = pd.read_csv(link_csv)

df

unnamed: 0

price

seqno

symbol

time00

1623.0

0.0147341196211

1623.0

0.0147341196222

1623.0

0.0147341196333

1623.0

0.0147341196344

1649.0

1.01473411963

# 刪掉無用的unname

del df[

'unnamed: 0'

]df

price

seqno

symbol

time

01623.0

0.01473411962

11623.0

0.01473411962

21623.0

0.01473411963

31623.0

0.01473411963

41649.0

1.01473411963

df.size
20
len

(df)

5
# 檢視no列有多少重複的

df['seqno'

].unique(

)

array([0., 1.])
len

(df[

'seqno'

].unique(

))

2
# 檢測是否與前邊重複

df['seqno'

].duplicated(

)

0    false

1 true

2 true

3 true

4 false

name: seqno, dtype: bool

# 刪掉重複的資料也就是上方展示為true的資料

df['seqno'

].drop_duplicates(

)

0    0.0

4 1.0

name: seqno, dtype: float64

# 這樣範圍侷限,無法展示全部(series)

type

(df[

'seqno'

].drop_duplicates(

))

pandas.core.series.series
# 這樣no列重複值刪不感覺(不傳參,則整體考慮某列重複最小處理原則)

df.drop_duplicates(

)

price

seqno

symbol

time

01623.0

0.01473411962

21623.0

0.01473411963

41649.0

1.01473411963

# 在dataframe狀態下進行處理(暫時全部)

df.drop_duplicates(

['seqno'

])

price

seqno

symbol

time

01623.0

0.01473411962

41649.0

1.01473411963

# 去重 引數(保留最後出現的)

df.drop_duplicates(

['seqno'

],keep=

'last'

)

price

seqno

symbol

time

31623.0

0.01473411963

41649.0

1.01473411963

通過去重進行資料清洗

檢視seqno列都有哪些值 df seqno unique 檢視唯一的值duplicated方法duplicated用於從上到下比較指定某一列的值,當這個值第一次出現時,返回false,當這個值和上乙個比一樣時,返回true drop duplicates去重複 drop duplicates方法將...

Python 資料分析視覺化

1 畫圖需要使用 matplotlib這個包 如下 importmatplotlib.pyplotasplt year 1950,1970,1990,2010 pop 2.519,3.692,5.263,6.972 values 0,0.6,1.4,1.6,2.2,2.5,2.6,3.2,3.5,3...

資料分析與視覺化

1.pip包管理 1 內建庫 包 庫 別人寫好的 直接引用,加快開發效率。內建包 python直譯器內建常用功能庫。直譯器安裝目錄 lib資料夾下,os time urllib等 資料夾裡有 init py 就成了乙個包。2 關於http模擬和html源 解析 python時代 urllib url...