解決機器學習問題的流程

有監督或者無監督問題，是分類還是回歸問題。

使用爬蟲收集遠端監督資料，或者收集目前已有開源資料集。

對於收集來的資料進行清洗工作，比如異常值檢測（離群點檢測），可以採用聚類方法k-means，找出離群點，以及基於統計的方法如分布在正態分佈不接受的範圍內的。

將資料集分為訓練集，驗證集，測試集。

採用交叉特徵，統計特徵（有的特徵不能統計測試集和驗證集的，否則會過擬合），特徵離散化等。

將資料根據label，如果是分類問題，可以給不同標籤的點打上不同的顏色（如果特徵比較多，可以先用pca降維之後再視覺化），然後根據樣本的分布情況（比如是用線性分類邊界，還是非線性分類邊界比較好），具體確定分類演算法，線性分模擬較可以使用邏輯回歸，線性svm等，非線性分類可以用決策樹等。

用sklearn，tensorflow，xgboost，lightgbm等庫進行模型訓練（使用訓練集），同時使用驗證集檢測優化目標，防止過擬合，也可以採用交叉驗證的方式。

使用測試集測試模型效能，之後進行線上a/btest。

如果模型效能較差：

1，過擬合或者欠擬合。

2，資料是否清洗乾淨。

3，如果是過擬合可以加大模型的正則化項，l1或著l2，或者dropout等。（也可以多訓練幾個差異較大的模型，融合抑制過擬合）。

4，如果是欠擬合可以多用幾個模型，進行模型融合，或者減小正則化項，或者檢視使用的模型是否適用於當前問題。

機器學習解決問題的流程

了解場景和目標對要解決的問題做具體分析，理解業務場景，這種場景中的常用模型。了解評估準則最終的目標是從準確率還是召回率方向打個比方做為模型的評估標準認識資料了解資料是否平衡，型別，結構，關聯關係資料預處理清洗，調權型別轉化，缺失值處理，標準化或者歸一化，one hot 資料本身的質量優...

解決機器學習問題的一般流程

學習更多的機器學習深度學習的知識！很多部落格教程中都對機器學習深度學習的具體方法有很詳細的講解，但卻很少有人對機器學習問題的流程進行總結，而了解解決機器學習問題的一般流程對於新手而言還是非常必要的，所以本文是非常適合機器學習入門者的一篇文章，它會讓你對機器學習的整個流程有很好的理解。當我們拿到...

機器學習流程

機器學習其實就是利用現有資料，設計出演算法模型的過程。其流程如下 1 獲取資料 2 資料分析 3 設計演算法 4 測試演算法 5 驗證評估 6 提交演算法對資料的處理分為四種情況分類聚類回歸降維。其中又以分類為主。分類思想主要分為兩種 1 利用歐式距離判定樣本屬於哪一類。2 利用概率大小進...

解決機器學習問題的流程

機器學習解決問題的流程

解決機器學習問題的一般流程

機器學習流程

相關推薦