Task02 資料的探索性分析

賽題概況

比賽要求參賽選手根據給定的資料集，建立模型，二手汽車的交易**。

來自 ebay kleinanzeigen 報廢的二手車，數量超過 370,000，包含 20 列變數資訊，為了保證比賽的公平性，將會從中抽取 10 萬條作為訓練集，5 萬條作為測試集 a，5 萬條作為測試集 b。同時會對名稱、車輛型別、變速箱、model、燃油型別、品牌、公里數、**等資訊進行脫敏。

賽題資料

saleid

交易id，唯一編碼

name

汽車交易名稱，已脫敏

regdate

汽車註冊日期，例如20160101，2023年01月01日

model

車型編碼，已脫敏

brand

汽車品牌，已脫敏

bodytype

車身型別：豪華轎車：0，微型車：1，廂型車：2，大巴車：3，敞篷車：4，雙門汽車：5，商務車：6，攪拌車：7

fueltype

燃油型別：汽油：0，柴油：1，液化石油氣：2，天然氣：3，混合動力：4，其他：5，電動：6

gearbox

變速箱：手動：0，自動：1

power

發動機功率：範圍 [ 0, 600 ]

kilometer

汽車已行駛公里，單位萬km

notrepaireddamage

汽車有尚未修復的損壞：是：0，否：1

regioncode

地區編碼，已脫敏

seller

銷售方：個體：0，非個體：1

offertype

**型別：提供：0，請求：1

creatdate

汽車上線時間，即開始售賣時間

price

二手車交易**（**目標）

v系列特徵

匿名特徵，包含v0-14在內15個匿名特徵

評測標準

mae：均方誤差

載入訓練和測試資料並對其進行分析，可分為以下部分

資料總覽

使用shape(),head(),describe(),info()等函式對其進行整體分析，包括檢視資料維度，每列資料的缺失值和型別，和標準差，平均值等統計資訊。

判斷資料缺失

使用isnull()和sum並進行繪圖可以初步判斷出缺失值數量，之後可使用missingno庫的matrix視覺化缺失值的分布。這裡要注意的一點是缺失值並不一定是nan，比如notrepaireddamage中使用了『-』表示了缺失，使用replace用nan對其進行替換。

另外對於資料分布嚴重傾斜的列進行刪除，如seler和offertype

檢視**值的分布

使用seaborn了解**值的總體分布情況，使用kurt()和skew()檢視其峰度和偏度，之後對其進行頻數統計。本次實驗**符合無界詹森分布。

特徵分類判別

將特徵分為類別特徵和數字特徵，可以通過資料型別是num或者obj來判別。但是本次中資料已經進行了處理，需要通過先驗知識對其進行分類，之後分別進行處理。

對於類別特徵

用pandas_profiling生成資料報告

非常好用的乙個功能，基本包含了上面所有的分析，缺點就是生成時間有些長，超到3.7的1400用了大概50分鐘

Task02 資料的探索性分析

資料的探索性分析

資料探勘 Task2 資料的探索性分析（EDA）

EDA 探索性資料分析

Task02 資料的探索性分析

資料的探索性分析

資料探勘 Task2 資料的探索性分析（EDA）

EDA 探索性資料分析

相關推薦