第三章 python資料規整化

2021-08-05 22:21:46 字數 2220 閱讀 6647

1、去重

2、缺失值處理

3、清洗字元型資料的空格

4、字段抽取

#匯入pandas包中的read_csv函式

from pandas import read_csv

df=read_csv('路徑')

#找出行重複的位置

dindex=df.duplicated()

#也可根據某些列,找出重複的位置

dindex=df.duplicated('age')

dindex=df.duplicated(['age','name'])

#根據返回值,把重複資料提取出來

df[dindex]

#預設根據所有的列,進行刪除,注意這裡是duplicates

newdf=df.drop.duplicates()

#也可以指定莫一列,進行重複值刪除

有些資料被遺漏或錯誤處理了

缺失資料在實際工作中,是不可避免的,本部分還是很重要的

刪除對應缺失行

不處理在python中,使用dropna函式進行缺失資料的清洗

# 首先匯入資料檔案,輸出df變數

from pandas import read_csv

df=read_csv('路徑')

在pandas的資料框中,缺失值用nan來標註

# 把之前資料為空的,換成a,b,可以把a、b指定為nan值,作用是可以把不不要的資料替換成缺失值,然後處理,使用的是read的na_values函式

df=read_csv('路徑',na_values=['a','b'])

# 找出nan所在的行,通過isnull方法獲取資料框中某個位置的值是否為nan值

#獲取空值所在的行

#首先獲取所有的列,只要獲取到nan了,就認為這行有nan值了

#使用any方法,就可以實現這種選擇效果

#如何要特定某列的nan值,定位後在用any的方法就可以了

df[isna[['gender']].any(axis=1)]

#直接刪除空值

#開啟資料檔案

from pandas import read_csv

df=read_csv('路徑')

#清除字串左邊的空格

newname=df['name'].str.lstrip()

#清除字串右邊的空格

newname=df['name'].str.rstrip()

#清除字串左、右邊的空格

newname=df['name'].str.strip()

#把清洗後的資料放回原來的列

df['name']=newname

Python第三章總結

今天看到了第三章,第三章主要介紹了列表,我認為列表就是之前學習的陣列,內容很簡單,就是有幾個函式容易弄混。這個是乙個列表的例子 bicycles trek cannondale redline specialized 想要獲取某乙個元素時,比如第乙個元素,可以使用 bicycles python為訪...

第三章,檢索資料

select prod name from products 上述語句利用select 語句從products表中檢索乙個名為prod name的列,所需要的列名在select 關鍵字之後給出,from關鍵字指出從其中檢索資料的表名 select prod name,prod id,prod nam...

第三章 資料定義

建立資料庫 creat database 資料庫名稱 開啟資料庫 use 資料庫名稱 刪除資料庫 drop database 資料庫名稱 更改資料庫名字 sp renameedp 原資料庫名稱 更改後資料庫名稱 建立資料庫student,並開啟 create database student gou...