天池二手車比賽 EDA

2021-10-04 08:59:18 字數 1442 閱讀 1292

這是第二次的任務打卡

首先是基本流程:

借鑑別人的乙個思維導圖,基本流程比較清楚了。

1. 與官方手冊有修改的的地方

import seaborn as sns

import matplotlib.pyplot as plt

import scipy.stats as st #引入科學計算包,統計類

plt.rcparams['font.sans-serif']=['simhei'] # 用來正常顯示中文標籤plt.rcparams['axes.unicode_minus']=false # 用來正常顯示負號

在這一部分因為自己繪圖的習慣,喜歡一來就負號與中文標籤顯示進行解決。這兩行**就能實現在所有的圖裡面進行中文正常顯示。

train_data_1=train_data.copy()

train_data_1['price'][train_data_1['price']>40000]=none

#注意,這是兩個

train_data_1.dropna()

plt.figure(2)

plt.hist(train_data_1['price'],orientation='vertical',histtype='bar',color='red')

train_data_2=train_data.copy()

train_data_2['price'】[train_data_2['price']>25000]=none

train_data_2.dropna()

plt.figure(3)plt.hist(train_data_2['price'],orientation='vertical',histtype='bar',color='blue')

這裡因為想在最後結果中,嘗試對捨棄不同量的資料對**結果的影響,所以設立了兩個其他變數,乙個是去除了40000以上,乙個是去除了25000以上

2.這次eda處理與以往的不同

3.對於本次eda的思考

對於自己而言,之前也跟著其他類似的比賽走過一次。但這次因為要輸出文字,所以可能思考的比較多一點。也有助於對學習效率進一步提公升。

那麼本次的是採用模型進行回歸分析。從對自己的資料與**方向來看,並不是特別契合。自己的主要精力還是要放在對資料處理與轉換的過程中。其次,本次資料特徵維度比較多,但是資料量顯得不夠。同時因為時序資料很少,所以在對日期處理與時空轉換部分的訓練不足。這是接下來自己需要再次提公升的方向。可以嘗試計程車軌跡資料處理那個比賽。

4.從現有資料分析過程中提取的注意事項

天池 Datawhale二手車新手賽 Task03

特徵工程應當結合模型來做,這看起來似乎是一句廢話,但與一些參賽的小夥伴討論過後,發現很多人都沒有認識到這一點。或者說只是表面上知道這一點,卻並沒有很好地在建模中踐行。我覺得這裡有乙個原因,就是很多同學在做data mining的時候,只是調包,然後頂多調一下超引數,只能從結果來判斷引數好壞,並不知道...

二手車專案(二)

sale應用中 urls.py 1 encoding utf 8 2 author freshman 3 4from django.conf.urls import url,include56 from sale import views78 9 urlpatterns 10 汽車品牌列表 11 u...

二手車專案(四)

新增到購物車 param request return 驗證使用者是否登入 ifrequest.user.is authenticated car id request.get carid print car id car id try car carinfo.objects.get id car ...