機器學習ml策略
1、為什麼是ml策略
例如:識別cat分類器的識別率是90%,怎麼進一步提高識別率呢?
想法:
(1)收集更多資料
(2)收集更多的多樣性訓練樣本
(3)使用梯度下降訓練更長時間
(4)嘗試adam代替梯度下降
(5)嘗試更大的網路
(6)嘗試更小的網路
(7)嘗試dropout
(8)嘗試l2正則化
(9)修改網路架構(激勵函式,隱含層單元數目)
2、正交化
正交化(正交性)是一種系統設計屬性,它可以確保修改演算法的乙個指令或者組成部分將不會對系統的其他組成部分產生或者傳播***。使得核查演算法變得容易,減少測試和開發演算法的時間。
乙個好的機器學習演算法按演算法流程需要滿足(正交化):
(1)在訓練集中表現好(接近人類)。如果不好,可換大型網路或者更換優化演算法
(2)在驗證集中表現好。如果不好,可嘗試正則化或者使用大一點規模的訓練集
(3)在測試集中表現好。如果不好,可嘗試大一點的驗證集
(4)在真實世界中表現好。如果不好,測試集不正確或者代價函式有問題
3、單一數字評估指標
混淆矩陣:
true positive(tp):正類**為正類
true negtive(tn):負類**為負類
false positive(fp):負類**為正類(誤報)
false negative(fn):正類**為負類(漏報)
positive negative
true tp tn
false fp fn
精確率(precision):針對**結果而言的,它表示的是**為正的樣本中有多少是對的
p = tp/(tp+fp)
準確率(accuracy):acc = (tp+tn)/(tp+tn+fp+fn)
召回率(recall):針對我們原來的樣本而言的,它表示的是樣本中的正例有多少被**正確的
r = tp/(tp+fn)
f1值:2/f1 = 1/p +1/r —> f1 = 2tp/(2tp+fp+fn)
在資訊檢索領域,精確率和召回率又被稱為查準率和查全率,
查準率=檢索出的相關資訊量 / 檢索出的資訊總量
查全率=檢索出的相關資訊量 / 系統中的相關資訊總量
ML 機器學習基礎
目錄 偏差與方差 導致偏差和方差的原因 深度學習中的偏差與方差 生成模型與判別模型 兩者之間的聯絡 優缺點常見模型 先驗概率與後驗概率 在監督學習中,模型的泛化誤差可分解為偏差 方差與雜訊之和 偏差用於描述模型的擬合能力 方差用於描述模型的穩定性 方差通常是由於模型的複雜度相對於訓練集過高導致的 監...
機器學習 ML分類
為了更好的學習機器學習知識,進行機器學習的分類 按照機器學習任務分類可以分為 分類問題是我們最常用的任務,如,新聞分類,分類,檔案分類可以按照各個領域進行分類,如教育,體育,科技,經濟等等 聚類問題,簡單的說是群,俗話是物以類聚,目的是將樣品劃分為緊密關係的子類或者是簇 最常用的是用k means聚...
ML 初識機器學習
arthur samual 1959 在沒有明確設定的情況下,使計算機具有學習能力的研究領域。機器學習是研究使計算機完成複雜任務並且無須對其進行明確程式設計的科學學科,機器學習中的演算法將學習如何解決給定的任務,這些演算法包括來自統計學 概率論和資訊理論的方法和技術。機器學習專案由多個步驟組成,通常...