重複值和缺失值和空格值的處理

2021-09-25 03:46:54 字數 804 閱讀 3075

#重複值處理

from pandas import read_csv

ak=read_csv('d://python projects//reference data')

#找出重複的位置

al=ak.duplicated()

#根據某些列判斷是否重複

ao=ak.duplicated('id')

ai=ak.duplicated(['id','key'])

#提取重複行

ak[ai]

ak[ak.duplicated(['id','key'])]

#預設根據所有列刪除重複值

new_ak=ak.drop_duplicates()

#也可以根據某一列刪除重複值

#空格值的處理

from pandas import read_csv

qf=read_csv('d://python projects//reference data')

#清除左邊的空格

new_qf=qf['name'].str.lstrip()

#清除右邊的空格

new_qd=qf['name'].str.rstrip()

#清除左右的空格

new_qw=qf['name'].str.strip()

#賦值回給原來的列

qf['name']=new_qw

資料處理之重複值,缺失值,空格值的處理

去除重複值在python中主要是用drop duplicates 函式,接下來做個小示範 這邊是我的檔案路徑,如果你想實現此功能需要輸入自己的檔案路徑 coding utf 8 import pandas as pd df pd.read csv r users herenyi downloads ...

缺失值選擇思想和處理缺失值

import pandas as pd from config import file data pd.read csv file,encoding gbk num data.isna sum print num 部分列如下所示 unnamed 0 0 custid 0 trade no 0 ban...

缺失值處理

pandas使用nan not a number 表示浮點和非浮點陣列中的缺失資料,python內建的none值也會被當做na處理,pandas物件上的所有描述統計都排除了缺失資料。na處理方法 方法 說明dropna 根據各標籤的值是否存在缺失資料對軸標籤進行過濾,可通過閾值調節對缺失值的容忍度 ...