天池二手車比賽 EDA

這是第二次的任務打卡

首先是基本流程：

借鑑別人的乙個思維導圖，基本流程比較清楚了。

1. 與官方手冊有修改的的地方

import seaborn as sns
import matplotlib.pyplot as plt
import scipy.stats as st #引入科學計算包，統計類
plt.rcparams['font.sans-serif']=['simhei'] # 用來正常顯示中文標籤plt.rcparams['axes.unicode_minus']=false # 用來正常顯示負號

在這一部分因為自己繪圖的習慣，喜歡一來就負號與中文標籤顯示進行解決。這兩行**就能實現在所有的圖裡面進行中文正常顯示。

train_data_1=train_data.copy()
train_data_1['price'][train_data_1['price']>40000]=none
#注意，這是兩個
train_data_1.dropna()
plt.figure(2)
plt.hist(train_data_1['price'],orientation='vertical',histtype='bar',color='red')
train_data_2=train_data.copy()
train_data_2['price'】[train_data_2['price']>25000]=none
train_data_2.dropna()
plt.figure(3)plt.hist(train_data_2['price'],orientation='vertical',histtype='bar',color='blue')

這裡因為想在最後結果中，嘗試對捨棄不同量的資料對**結果的影響，所以設立了兩個其他變數，乙個是去除了40000以上，乙個是去除了25000以上

2.這次eda處理與以往的不同

3.對於本次eda的思考

對於自己而言，之前也跟著其他類似的比賽走過一次。但這次因為要輸出文字，所以可能思考的比較多一點。也有助於對學習效率進一步提公升。

那麼本次的是採用模型進行回歸分析。從對自己的資料與**方向來看，並不是特別契合。自己的主要精力還是要放在對資料處理與轉換的過程中。其次，本次資料特徵維度比較多，但是資料量顯得不夠。同時因為時序資料很少，所以在對日期處理與時空轉換部分的訓練不足。這是接下來自己需要再次提公升的方向。可以嘗試計程車軌跡資料處理那個比賽。

4.從現有資料分析過程中提取的注意事項

天池 Datawhale二手車新手賽 Task03

特徵工程應當結合模型來做，這看起來似乎是一句廢話，但與一些參賽的小夥伴討論過後，發現很多人都沒有認識到這一點。或者說只是表面上知道這一點，卻並沒有很好地在建模中踐行。我覺得這裡有乙個原因，就是很多同學在做data mining的時候，只是調包，然後頂多調一下超引數，只能從結果來判斷引數好壞，並不知道...

二手車專案（二）

sale應用中 urls.py 1 encoding utf 8 2 author freshman 3 4from django.conf.urls import url,include56 from sale import views78 9 urlpatterns 10 汽車品牌列表 11 u...

二手車專案（四）

新增到購物車 param request return 驗證使用者是否登入 ifrequest.user.is authenticated car id request.get carid print car id car id try car carinfo.objects.get id car ...

天池二手車比賽 EDA

天池 Datawhale二手車新手賽 Task03

二手車專案（二）

二手車專案（四）

相關推薦