通過去重進行資料清洗

2021-09-10 06:52:59 字數 885 閱讀 2860

檢視seqno列都有哪些值

df['seqno'].unique()  # 檢視唯一的值
duplicated方法duplicated用於從上到下比較指定某一列的值,當這個值第一次出現時,返回false,當這個值和上乙個比一樣時,返回true

drop_duplicates去重複

drop_duplicates方法將會把這一列duplicated方法結果中為true的項刪除,false的項保留。在不指定keep的時候,它的值預設為first,表示如果有多個重複的則保留第乙個。也可以指定其他的值,比如last。

注意:

df1['seqno'].drop_duplicates()   # 返回乙個新的關於seqno的serirs

df1.drop_duplicates() # 按照一行四個元素的一致性去重的

df.drop_duplicates(['seqno']) # 指定按照seqno這一列的值為基準進行去重

資料分析視覺化 通過去重進行資料清洗

import numpy as np import pandas as pd from pandas import series,dataframe 讀取剛剛分解處理完的返回資料 link csv users bennyrhys desktop 資料分析視覺化 資料集 homework demo d...

使用SSIS進行資料清洗

原文 使用ssis進行資料清洗 oltp系統的後端關聯式資料庫用於儲存不同種類的資料,理論上來講,資料庫中每一列的值都有其所代表的特定含義,資料也應該在存入資料庫之前進行規範化處理,比如說 age 列,用於儲存人的年齡,設定的資料型別為int型別。存入資料庫的值是2000雖然看起來沒有任何問題,但結...

使用python進行資料清洗

1 在資料清洗前,我們需要先檢視資料概況,了解我們需要清洗的資料大概包含什麼字段 每個字段下面資料範圍大概如何,資料清洗常用到的函式和語法分別有 info函式 用於了解資料總體情況,包括行數,列數,各列名稱等,比如 shape函式 用於檢視資料矩陣的行和列 describe函式 了解datafram...