ML基礎機器學習基礎

收集資料

我們可以使用很多方法收集樣本資料，如：製作網路爬蟲從**上抽取資料、從rss反饋或者api中得到資訊、裝置傳送過來的實測資料（風速、血糖等）。提取資料的方法非常多，為了節省時間與精力，可以使用公開可用的資料來源。

準備輸入資料

得到資料之後，還必須確保資料格式符合要求，此外還需要為機器學習演算法準備特定的資料格式，如某些演算法要求特徵值使用特定的格式，一些演算法要求目標變數和特徵值是字串型別，而另一些演算法則可能要求是整數型別。後續章節我們還要討論這個問題，但是與收集資料的格式相比，處理特殊演算法要求的格式相對簡單得多。

分析輸入資料

此步驟主要是人工分析以前得到的資料。為了確保前兩步有效，最簡單的方法是用文字編輯器開啟資料檔案，檢視得到的資料是否為空值。此外，還可以進一步瀏覽資料，分析是否可以識別出模式；資料中是否存在明顯的異常值，如某些資料點與資料集中的其他值存在明顯的差異。通過一維、二維或三維圖形展示資料也是不錯的方法，然而大多數時候我們得到資料的特徵值都不會低於三個，無法一次圖形化展示所有特徵。本書的後續章節將會介紹提煉資料的方法，使得多維資料可以壓縮到二維或三維，方便我們圖形化展示資料。

訓練演算法

根據演算法的不同，第4步和第5步是機器學習演算法的核心。我們將前兩步得到的格式化資料輸入到演算法，從中抽取知識或資訊。這裡得到的知識需要儲存為計算機可以處理的格式，方便後續步驟使用。

如果使用非監督學習演算法，由於不存在目標變數值，故而也不需要訓練演算法，所有與演算法相關的內容都集中在第5步。

測試演算法

這一步將實際使用第4步機器學習得到的知識資訊。為了評估演算法，必須測試演算法工作的效果。對於監督學習，必須已知用於評估演算法的目標變數值；對於非監督學習，也必須用其他的評測手段來檢驗演算法的成功率。無論哪種情形，如果不滿意演算法的輸出結果，則可以回到第4步，改正並加以測試。問題常常會跟資料的收集和準備有關，這時你就必須跳回第1步重新開始。

使用演算法

將機器學習演算法轉換為應用程式，執行實際任務，以檢驗上述步驟是否可以在實際環境中正常工作。此時如果碰到新的資料問題，同樣需要重複執行上述的步驟。

ML基礎機器學習基礎

ML 機器學習基礎

ml 統計基礎

機器學習基礎機器學習基礎引入

ML基礎 機器學習基礎

ML 機器學習基礎

ml 統計 基礎

機器學習基礎 機器學習基礎引入

相關推薦

ML基礎機器學習基礎

ml 統計基礎

機器學習基礎機器學習基礎引入