Task02 資料的探索性分析

2021-10-04 09:05:41 字數 1597 閱讀 2547

賽題概況

比賽要求參賽選手根據給定的資料集,建立模型,二手汽車的交易**。

來自 ebay kleinanzeigen 報廢的二手車,數量超過 370,000,包含 20 列變數資訊,為了保證 比賽的公平性,將 會從中抽取 10 萬條作為訓練集,5 萬條作為測試集 a,5 萬條作為測試集 b。同時會對名稱、車輛型別、變速 箱、model、燃油型別、品牌、公里數、**等資訊進行脫敏。

賽題資料

saleid

交易id,唯一編碼

name

汽車交易名稱,已脫敏

regdate

汽車註冊日期,例如20160101,2023年01月01日

model

車型編碼,已脫敏

brand

汽車品牌,已脫敏

bodytype

車身型別:豪華轎車:0,微型車:1,廂型車:2,大巴車:3,敞篷車:4,雙門汽車:5,商務車:6,攪拌車:7

fueltype

燃油型別:汽油:0,柴油:1,液化石油氣:2,天然氣:3,混合動力:4,其他:5,電動:6

gearbox

變速箱:手動:0,自動:1

power

發動機功率:範圍 [ 0, 600 ]

kilometer

汽車已行駛公里,單位萬km

notrepaireddamage

汽車有尚未修復的損壞:是:0,否:1

regioncode

地區編碼,已脫敏

seller

銷售方:個體:0,非個體:1

offertype

**型別:提供:0,請求:1

creatdate

汽車上線時間,即開始售賣時間

price

二手車交易**(**目標)

v系列特徵

匿名特徵,包含v0-14在內15個匿名特徵

評測標準

mae:均方誤差

載入訓練和測試資料並對其進行分析,可分為以下部分

資料總覽

使用shape(),head(),describe(),info()等函式對其進行整體分析,包括檢視資料維度,每列資料的缺失值和型別,和標準差,平均值等統計資訊。

判斷資料缺失

使用isnull()和sum並進行繪圖可以初步判斷出缺失值數量,之後可使用missingno庫的matrix視覺化缺失值的分布。這裡要注意的一點是缺失值並不一定是nan,比如notrepaireddamage中使用了『-』表示了缺失,使用replace用nan對其進行替換。

另外對於資料分布嚴重傾斜的列進行刪除,如seler和offertype

檢視**值的分布

使用seaborn了解**值的總體分布情況,使用kurt()和skew()檢視其峰度和偏度,之後對其進行頻數統計。本次實驗**符合無界詹森分布。

特徵分類判別

將特徵分為類別特徵和數字特徵,可以通過資料型別是num或者obj來判別。但是本次中資料已經進行了處理,需要通過先驗知識對其進行分類,之後分別進行處理。

對於類別特徵

用pandas_profiling生成資料報告

非常好用的乙個功能,基本包含了上面所有的分析,缺點就是生成時間有些長,超到3.7的1400用了大概50分鐘

資料的探索性分析

1.簡單統計量分析 極差,最大值,最小值 2.3 原則 如果資料服從正態分佈,在3 原則下,異常值被定義為一組測定值中與平均值的偏差超過3倍標準差的值。如果資料不服從正態分佈,也可以用標準差作為 來進行倍數描述 3.箱型圖分析 在箱型圖中,異常值被定義為小於ql 1.5iqr或大於qu 1.5iqr...

資料探勘 Task2 資料的探索性分析(EDA)

資料探勘 task2 資料的探索性分析 eda 其他都是我平時常用的庫,missingno第一次用,主要是用於直觀顯示資料集中缺失值的分布以及相關性的。import pandas as pd import matplotlib import matplotlib.pyplot as plt impo...

EDA 探索性資料分析

引導資料科學從業者進行資料處理以及特徵工程的步驟,使資料集的結構和特徵集讓接下來的 問題更加可靠。值得注意的是,eda過程中是對原始資料的特徵 統計特徵 分布特徵 相關性等 進行挖掘,但是沒有刪除或構造任何特徵 花式查詢,不包括增 刪 改 1 載入各種資料科學以及視覺化庫 資料科學庫 pandas ...