高階實訓第二週週報

實踐：

對部分有缺失值的特徵做了簡單的填充處理（數值類用均值替代，類別類用眾數替代），重點擊取部分與貸款數額、評級、收入與償還能力相關的屬性，使用knn模型進行訓練（因其較簡單，執行速度較快）。由於測試集不含標籤，我使用sklearn將原訓練集隨機劃分為訓練集、測試集，其中測試集佔比為0.3，即240000條，在測試集上準確率約為0.79，賽事評分如下：

理論：

閱讀了論壇中關於資料分析與特徵工程的內容（包括視覺化、空白值填充、異常值處理、特徵選擇等），下一步計畫對異常值進行處理，並利用相關性分析選擇適當的屬性集。同時嘗試縮小訓練樣本的規模，以更快地測試一些更複雜模型的效能。

高階實訓第二週週報

高階實訓第五周週報

高階實訓第六周週報

高階實訓第八周週報

高階實訓第二週週報

高階實訓第五周週報

高階實訓第六周週報

高階實訓第八周週報

相關推薦