機器學習的通用工作流程

1.定義問題，收集資料集首先，你必須定義所面對的問題，只有擁有可用的訓練資料，你才能學習**某件事情。因此，資料可用性通常是這-階段的限制因素。其次，你面對的是什麼型別的問題?是二分類問題、多分類問題、標量回歸問題、向量回歸問題，還是多分類、多標籤問題?或者是其他問題，比如聚類、生成或強化學習?確定問題型別有助於你選擇模型架構、損失麗數等。只有明確了輸入、輸出以及所使用的資料，你才能進入下一-階段。在開發出工作模型之前，這些只是假設，等待驗證真假。並非所有問題都可以解決。你收集了包含輸人x和目標y的很多樣例，並不意味著x包含足夠多的資訊來**y。

2.選擇衡量成功的指標要控制一件事物，就需要能夠觀察它。要取得成功，就必須給出成功的定義:精度,準確率和召回率,客戶保留率,衡量成功的指標將指引我們選擇損失函式，即模型要優化什麼。對於平衡分類問題(每個類別的可能性相同)精度和接收者操作特徵曲線下面積的指標，是常用的指標，對於類別不平衡的，可以用準確率和召回率。

3.確定評估方法一且明確了目標，你必須確定如何衡量當前的進展。有三種常見方法：

(1)留出驗證集。資料量很大時可以採用這種方法。(2)k折交叉驗證。如果留出驗證的樣本量太少，無法保證可靠性，那麼應該選擇這種方法。

(3)重複的k折驗證。如果可用的資料很少，同時模型評估又需要非常準確，這種方法。

4.準備資料一且知道了要訓練什麼、要優化什麼以及評估方法，那麼你就幾乎已經準備好訓練模型了。但首先你應該將資料格式化，使其可以輸人到機器學習模型中(這裡假設模型為深度神經網路) 5.開發比基準更好的模型這一階段的目標是獲得統計功效( statistical power), 即開發乙個小型模型，它能夠打敗隨機的基準( dumb baseline)。

6.擴大模型規模: 開發過擬合的模型

(1)新增更多的層。

(2)讓每一層變得更大。

(3)訓練更多的輪次。

7.模型正則化與調節超引數

(1)新增dropout。

(2)嘗試不同的架構:增加或減少層數。

(3)新增l1和/或l2正則化。

(4)嘗試不同的超引數(比如每層的單元個數或優化器的學習率)，以找到最佳配置。

機器學習的通用工作流程

機器學習中的通用工作流程

方法機器學習深度學習通用工作流程

機器學習的工作流程

機器學習的通用工作流程

機器學習中的通用工作流程

方法 機器學習 深度學習 通用工作流程

機器學習的工作流程

相關推薦

方法機器學習深度學習通用工作流程