機器學習系統構建

2022-08-21 20:18:09 字數 1380 閱讀 5749

首先是機器學習系統構建的流程:

ng推薦方法:首先高速實現乙個可能並非非常完美的演算法系統。進行交叉驗證,畫出學習曲線去學習演算法問題之處,是high bias or high variance 細節看這篇博文介紹:bias和variance在機器學習中應用

最重要一步:錯誤分析。手工檢驗演算法錯誤學習的樣本。找到演算法在什麼型別樣例上犯錯誤!然後幾種經歷在處理這類錯誤上。

以下以垃圾郵件系統舉例:

反垃圾郵件系統發現誤分類最多的是steal passwords所以集中經歷去解決這部分問題。這樣能比較高效率。

另乙個小竅門就是:學習演算法我們須要有數值量化標準來評估演算法!

課上ng提到spam email 中是否使用詞幹提取器,最好的辦法就是實驗兩次分別使用和不適用。通過數值量化標準進行評估來選擇是否採用詞幹提取器。

前面提到數值量化標準,有一種傾斜類狀態看下圖,會發現通常情況下的錯誤率衡量標準問題所在:

癌症病人比例為0.5% ,假設我們有乙個演算法錯誤率為1%,通常情況下這種錯誤率是比較好,可是假設我不用不論什麼演算法就預測病人沒有癌症。我的錯誤率也僅僅有0.5%,所以須要引入新的數值評價標準:precision  recall 見例項非常好懂意思。

通常情況下,我們定義fscore來進行precision recall 的trade off 

有句話能夠參考:it's not who has the best algorithm that wins it's who has the most data。

我們設定學習演算法比較多引數,使用大的訓練集,使得系統low bias low variance 這就是我們須要達到的目標!

機器學習 構建機器學習流水線

from sklearn.datasets import samples generator from sklearn.ensemble import randomforestclassifier from sklearn.feature selection import selectkbest,f...

構建機器學習演算法和剪枝

幾乎所有的深度學習演算法都可以被描述為乙個相當簡單的配方 特定的資料集 代價函式 優化過程和模型。在大多數情況下,優化演算法可以定義為求解代價函式梯度為零的正規方程。通常代價函式至少含有一項使學習過程進行統計估計的成分。最常見的代價函式是負對數似然,最小化代價函式導致的最大似然估計。組合模型 代價和...

構建機器學習工作流

匯入相關庫 from pyspark import sparkcontext from pyspark.sql import sparksession from pyspark.ml import pipeline from pyspark.ml.classification import logi...