機器學習系統構建

首先是機器學習系統構建的流程：

ng推薦方法：首先高速實現乙個可能並非非常完美的演算法系統。進行交叉驗證，畫出學習曲線去學習演算法問題之處，是high bias or high variance 細節看這篇博文介紹：bias和variance在機器學習中應用

最重要一步：錯誤分析。手工檢驗演算法錯誤學習的樣本。找到演算法在什麼型別樣例上犯錯誤！然後幾種經歷在處理這類錯誤上。

以下以垃圾郵件系統舉例：

反垃圾郵件系統發現誤分類最多的是steal passwords所以集中經歷去解決這部分問題。這樣能比較高效率。

另乙個小竅門就是：學習演算法我們須要有數值量化標準來評估演算法！

課上ng提到spam email 中是否使用詞幹提取器，最好的辦法就是實驗兩次分別使用和不適用。通過數值量化標準進行評估來選擇是否採用詞幹提取器。

前面提到數值量化標準，有一種傾斜類狀態看下圖，會發現通常情況下的錯誤率衡量標準問題所在：

癌症病人比例為0.5% ，假設我們有乙個演算法錯誤率為1%，通常情況下這種錯誤率是比較好，可是假設我不用不論什麼演算法就預測病人沒有癌症。我的錯誤率也僅僅有0.5%，所以須要引入新的數值評價標準：precision recall 見例項非常好懂意思。

通常情況下，我們定義fscore來進行precision recall 的trade off

有句話能夠參考：it's not who has the best algorithm that wins it's who has the most data。

我們設定學習演算法比較多引數，使用大的訓練集，使得系統low bias low variance 這就是我們須要達到的目標！