python之資料清洗指令碼

#coding=utf-8
import numpy as np
import pandas as pd
na_list=['no clue','n/a','0']#na包含的型別
data=pd.read_csv('311-service-requests.csv',na_values=na_list,dtype=)#列值資料型別設定為字串
#print(data['incident zip'].head())#--檢視前幾行，不改變源資料
#data['incident zip'].unique()#--檢視唯一值，不改變源資料
#data['incident zip'][data['incident zip'].str.len()>5]#檢視元素長度大於5的元素，不改變源資料
data['incident zip']=data['incident zip'].str.slice(0,5)#源資料重新賦值，改變源資料
#print(data['incident zip'])
data.loc[data['incident zip']=='00000','incident zip']=np.nan#值為0的元素設為nan，loc改變源資料
unique_zip=data['incident zip'].fillna(false).unique().astype('str')#fillna(flase)
unique_zip.sort()#排序，改變源資料
#print(unique_zip)
zips=data['incident zip']
is_close=zips.str.startswith('0')|zips.str.startswith('1')#取字元傳以1或0開頭的元素
is_far=~(is_close)&zips.notna()#～表示反條件，即不以0或1開頭且不為空的元素
print(data[is_far]['incident zip'])#花式索引

資料清洗之資料清洗概述

從廣泛的意義上來講，資料是乙個寬泛的概念，包括但不限於我們要了解資料清洗，就需理解資料的內涵和外延常見的資料有其中，比較重要比較常見的分析資料是資料。這裡重點介紹一些關於資料的內容。資料資料物件由屬性 attributes 及其值 value 構成資料的特徵什麼是資料清洗資料清洗是...

Python資料分析之資料清洗

good data decides good analyse 資料清洗，是資料分析中不可缺少的乙個環節，其處理的好壞在很大程度上影響著資料分析的結果。而且以前聽老師說過資料清洗佔整個的資料分析的一半時間以上汗。資料清洗也是乙個大學問啊首先讀入檔案我們可以看出有乙個nan，李四的數學成績也是不符...

python資料清洗

對於資料中缺失的值，可以有3種方法處理 1.刪除。比如餐廳的營業額，有幾天去裝修了，確實沒營業，可以刪除 2.不處理有一些模型可以將缺失值作為一種特殊的值，可以直接建模。3.補上均值中位數眾數一般情況吧固定值比如工資啊，補貼啊最近臨插補最近的值，相鄰的，補上下面是拉格朗日插值法 ...

python之資料清洗指令碼

資料清洗之資料清洗概述

Python資料分析之資料清洗

python資料清洗

相關推薦