專案一總結

2021-08-22 02:26:54 字數 803 閱讀 9273

1.熟悉資料

這兒嘗試用pandas

2.理解資料

此處主要列舉資料的一些資訊,有效資料、均值、最大值、最小值等

注意:有些資料有時效性,資料收集的是2023年的房子**,如果你**2011,一切沒有問題,但是今年是2023年,有點太舊了,你需要增加新的資料了。

3.挑選特徵

針對大量的資料,如何挑選特徵,也是一大難題。目前最簡單的方法是靠直覺。

學會如何提取資料

4.建立模型

首先挑選目標量,即你要**什麼,設定為y;

然後挑選決策器,即用什麼變數進行**,設定為x;

最後挑選模型,此處經常選擇sklearn的模型,例如選擇決策樹;

訓練就好了。

5.衡量模型的好壞

常見的衡量指標為準確率;

採用mae來衡量(平均絕對值誤差)

我們應該用驗證集來衡量模型的誤差,而不應該使用訓練集。

(當然,可以採用訓練集的誤差來分析模型的擬合程度)

6.實驗不同的模型

不同的模型會導致過擬合和欠擬合

我們可以通過調整超引數來確定最佳的mae(此處有點像grid 的方式,當然僅僅是列舉而已)

7.更好的模型

以上說的時決策樹,決策樹很難估量過擬合和欠擬合的程度,因此此處進一步引出了隨機森林,

隨機森林採用很多樹,通過已有樹**的 平均值來作為最後的**結果。這個通常會有更好的

結果,即使不進行調參。

實驗證明,隨機森林確實比決策樹會好很多。當然,你還可以像6一樣用grid來調整超引數,效果會更好。

以後在介紹xgboost。

實驗一總結

通過對實驗一的程式設計,複習了c 類,模板和過載函式等 內容。一 過載函式 1.過載函式是指函式名相同而引數有所不同的函式 eg.int add int x,int y 與 float add float x,float y 2.在使用過載函式時要注意 1 過載函式的不同實現的判斷條件是根據引數的不...

csapp實驗一總結

實驗一主要是關於位運算跟補碼和浮點數的表示的。整數部分 浮點數部分 在說題目之前我想先來寫一些浮點數表示的方法,以及一些注意事項。現在計算機基本上都採用了ieee754標準來表示浮點數,改標準把浮點數的表示為v 1 s m 2 ev 1 s m 2 e v 1 s m 2e這種形式,其中s ss稱為...

專案進度(一) 總體架構

我們製作的專案是果蔬自動識別計價秤,用來自動識別並計價,節省超市的人力成本。專案的總體架構為 採用arduino是因為 簡單清晰的開發 arduino ide基於processing ide開發,有著足夠的靈活性。arduino語言基於wiring語言開發,不需要太多的微控制器基礎 程式設計基礎,簡...