#coding=utf-8
import numpy as np
import pandas as pd
na_list=['no clue','n/a','0']#na包含的型別
data=pd.read_csv('311-service-requests.csv',na_values=na_list,dtype=)#列值資料型別設定為字串
#print(data['incident zip'].head())#--檢視前幾行,不改變源資料
#data['incident zip'].unique()#--檢視唯一值,不改變源資料
#data['incident zip'][data['incident zip'].str.len()>5]#檢視元素長度大於5的元素,不改變源資料
data['incident zip']=data['incident zip'].str.slice(0,5)#源資料重新賦值,改變源資料
#print(data['incident zip'])
data.loc[data['incident zip']=='00000','incident zip']=np.nan#值為0的元素設為nan,loc改變源資料
unique_zip=data['incident zip'].fillna(false).unique().astype('str')#fillna(flase)
unique_zip.sort()#排序,改變源資料
#print(unique_zip)
zips=data['incident zip']
is_close=zips.str.startswith('0')|zips.str.startswith('1')#取字元傳以1或0開頭的元素
is_far=~(is_close)&zips.notna()#~表示反條件,即不以0或1開頭且不為空的元素
print(data[is_far]['incident zip'])#花式索引
資料清洗之資料清洗概述
從廣泛的意義上來講,資料是乙個寬泛的概念,包括但不限於 我們要了解資料清洗,就需理解資料的內涵和外延 常見的資料有 其中,比較重要比較常見的分析資料是 資料。這裡重點介紹一些關於 資料的內容。資料 資料物件由屬性 attributes 及其值 value 構成 資料的特徵 什麼是資料清洗 資料清洗是...
Python資料分析之資料清洗
good data decides good analyse 資料清洗,是資料分析中不可缺少的乙個環節,其處理的好壞在很大程度上影響著資料分析的結果。而且以前聽老師說過資料清洗佔整個的資料分析的一半時間以上 汗。資料清洗也是乙個大學問啊 首先讀入檔案 我們可以看出有乙個nan,李四的數學成績也是不符...
python資料清洗
對於資料中缺失的值,可以有3種方法處理 1.刪除。比如餐廳的營業額,有幾天去裝修了,確實沒營業,可以刪除 2.不處理 有一些模型可以將缺失值作為一種特殊的值,可以直接建模。3.補上 均值 中位數 眾數 一般情況吧 固定值 比如工資啊,補貼啊 最近臨插補 最近的值,相鄰的,補上 下面是拉格朗日插值法 ...