python之資料清洗指令碼

2021-08-31 09:51:31 字數 1003 閱讀 7674

#coding=utf-8

import numpy as np

import pandas as pd

na_list=['no clue','n/a','0']#na包含的型別

data=pd.read_csv('311-service-requests.csv',na_values=na_list,dtype=)#列值資料型別設定為字串

#print(data['incident zip'].head())#--檢視前幾行,不改變源資料

#data['incident zip'].unique()#--檢視唯一值,不改變源資料

#data['incident zip'][data['incident zip'].str.len()>5]#檢視元素長度大於5的元素,不改變源資料

data['incident zip']=data['incident zip'].str.slice(0,5)#源資料重新賦值,改變源資料

#print(data['incident zip'])

data.loc[data['incident zip']=='00000','incident zip']=np.nan#值為0的元素設為nan,loc改變源資料

unique_zip=data['incident zip'].fillna(false).unique().astype('str')#fillna(flase)

unique_zip.sort()#排序,改變源資料

#print(unique_zip)

zips=data['incident zip']

is_close=zips.str.startswith('0')|zips.str.startswith('1')#取字元傳以1或0開頭的元素

is_far=~(is_close)&zips.notna()#~表示反條件,即不以0或1開頭且不為空的元素

print(data[is_far]['incident zip'])#花式索引

資料清洗之資料清洗概述

從廣泛的意義上來講,資料是乙個寬泛的概念,包括但不限於 我們要了解資料清洗,就需理解資料的內涵和外延 常見的資料有 其中,比較重要比較常見的分析資料是 資料。這裡重點介紹一些關於 資料的內容。資料 資料物件由屬性 attributes 及其值 value 構成 資料的特徵 什麼是資料清洗 資料清洗是...

Python資料分析之資料清洗

good data decides good analyse 資料清洗,是資料分析中不可缺少的乙個環節,其處理的好壞在很大程度上影響著資料分析的結果。而且以前聽老師說過資料清洗佔整個的資料分析的一半時間以上 汗。資料清洗也是乙個大學問啊 首先讀入檔案 我們可以看出有乙個nan,李四的數學成績也是不符...

python資料清洗

對於資料中缺失的值,可以有3種方法處理 1.刪除。比如餐廳的營業額,有幾天去裝修了,確實沒營業,可以刪除 2.不處理 有一些模型可以將缺失值作為一種特殊的值,可以直接建模。3.補上 均值 中位數 眾數 一般情況吧 固定值 比如工資啊,補貼啊 最近臨插補 最近的值,相鄰的,補上 下面是拉格朗日插值法 ...