9 資料清洗之資料表處理之資料增加和刪除

2021-10-02 16:03:09 字數 1066 閱讀 6228

在資料中,直接新增列

使用df.insert方法在資料中新增一列

掌握drop(labels,axis,inplace=true)的用法

labels表示刪除的是資料,axis表示座標軸,inplace=true表示是否對源資料生效

axis=0按行操作,axis=1按列操作

使用del函式直接刪除其中一列

del basic['資料']

basic.drop(labels=['敬老愛幼情況','家庭和睦情況'],axis=1,inplace=true)

basic.drop(labels=range(6,11),axis=0,inplace=true)

basic.insert(0,'出生年月',mid)

實操:#新增某列

#列『buy_mount』的資料大於3為高,否則為低,結果放在新增加的列列『購買量』

df['購買量']=np.where(df['buy_mount']>3,'高','低')

df.head(5)

#把列acution_id複製到0列(列名為auction_id_new),並刪除原列

auction=df['auction_id']

del df['auction_id']

df.insert(0,'auction_id_new',auction)#para1:插入位置;para2:標籤名;para3:插入資料。

df#刪除某列

#刪除購買量,只是視覺化改變,原始檔沒有變

df.drop(labels=['auction_id_new','購買量'],axis=1)

#原始檔改變了

df.drop(labels=['auction_id_new','購買量'],axis=1,inplace=true)#的區別

df#按行標籤刪除

df.drop(labels=[3,4],axis=0,inplace=true)

#按行標籤刪除(迭代器形式),6-10行,左開右閉

d.drip(labels=range(5,11),axis=0,inplace=true)

資料探勘 資料預處理之資料清洗

資料清洗 資料清洗作為資料預處理中的乙個步驟,主要用於處理由於資料倉儲中資料不完整 資料雜訊以及資料不一致導致的問題。有人可能質疑,為什麼要對資料進行清洗?忽略那些出問題的資料不行嗎?當然,視而不見確是一種應對策略,但作為資料探勘中的一環,沒有高質量的資料又談何挖掘的可信性。為此,對於資料資料探勘來...

資料清洗之資料清洗概述

從廣泛的意義上來講,資料是乙個寬泛的概念,包括但不限於 我們要了解資料清洗,就需理解資料的內涵和外延 常見的資料有 其中,比較重要比較常見的分析資料是 資料。這裡重點介紹一些關於 資料的內容。資料 資料物件由屬性 attributes 及其值 value 構成 資料的特徵 什麼是資料清洗 資料清洗是...

大資料預處理之資料清洗

現實世界的資料常常是不完全的 有雜訊的 不一致的。資料清洗過程包括遺漏資料處理,雜訊資料處理,以及不一致資料處理。本節介紹資料清洗的主要處理方法。假設在分析乙個商場銷售資料時,發現有多個記錄中的屬性值為空,如顧客的收入屬性,則對於為空的屬性值,可以採用以下方法進行遺漏資料處理。1 忽略該條記錄 若一...