模型訓練和模型擬合的幾點理解

模型訓練和模型擬合的幾點理解，歡迎大牛指點~

對於我們日常工作，拿到乙個挖掘專案，一般都是先走一遍標準化的資料流程，效果好大家歡喜，效果不好各種調參。

這裡有幾點想說：

（1）在開始挖掘專案之前，是否有評估挖掘專案的可行性？

（2）挖掘專案可行，現有的資料是否可以支撐專案的開展？

（3）如何判斷現有資料可支撐需求呢？

對於第一點：

不管是何種資料探勘演算法，本質都是模仿（用**更合適，因為現在沒有哪個演算法是真正使用人思考方式）人的思考行為。

既然如何，那就需要思考，「如果我是模型，我面對這些資料對怎麼處理」？

在現實中就發現很多專案根本不具備可行性，或者說是現有挖掘演算法根本就不能實現產品（老大）所期望的效果。

比如，識別各種型別文件中的各個詞條資訊，提取各個有用資訊，幾十幾百種不同型別文件，幾千幾萬種不同編寫風格，試問只有幾千個樣本的情況下，如何提取？這時使用正規表示式或是更好的選擇，起碼能準確提取部分資訊。

又比如，現在專案需要結果是乙個精準效果，好比人造衛生發射的軌道一樣，不能有任何偏差，而調研之後發現當前頂尖模型只能給出乙個90%的準確率，那麼這個專案可行嗎？

又好比，天氣預報，現在產品找到你，「小李我，你訓練乙個模型，準確告訴我t+1的天氣，不能錯」，那麼這個需求是否可行呢？

對於第二點：

很多時候，想法很美好，現實很殘酷。

考慮乙個場景：現在有乙個分類模型，**類別a、型別b和型別c。如果現實資料中都沒有型別c的資料或者c的資料嚴重不足，那怎麼準確識別型別c？當模型是神仙嗎？

又如乙個場景：根據業務（比如**不同性別下的收入），現有資料只有部分模式的資料（男性收入資料），而需求是準確識別全部模式的資料（男性和女性），那這時又如何（模型沒見過女性資料，如何**女性，**也是使用男性的模式進行**）？

對於第三點：

如何判斷現有資料可支撐需求呢？

對資料做簡單處理，然後使用乙個baseline模型跑一遍資料，首先初步看模型能否學習到知識。

-- 未完待續 ---