MindSpore模型精度調優實踐

mindspore模型精度調優實踐

引論：在模型的開發過程中，精度達不到預期常常讓人頭疼。為了幫助使用者解決模型除錯調優的問題，為mindspore量身定做了視覺化除錯調優元件：mindinsight。還梳理了針對常見精度問題的除錯調優指南，將以「mindspore模型精度調優實戰」系列文章的形式分享出來，希望能幫助使用者輕鬆定位精度問題，快速優化模型精度。

本文將分析精度問題的常見現象和原因，並給出乙個整體的調優思路。本文分享假設指令碼已經能夠執行並算出loss值。如果指令碼還不能執行，請先參考相關報錯提示進行修改。

精度問題的常見現象和原因

模型精度問題和一般的軟體問題不同，定位週期一般也更長。在通常的程式中，程式輸出和預期不符意味著存在bug（編碼錯誤）。但是對乙個深度學習模型來說，模型精度達不到預期，有著更複雜的原因和更多的可能性。由於模型精度要經過長時間的訓練才能看到最終結果，定位精度問題通常會花費更長的時間。

常見現象

精度問題的直接現象一般體現在loss（模型損失值）和metrics（模型度量指標）上。loss現象一般表現為（1）loss跑飛，出現nan，+/- inf，極大值（2）loss不收斂、收斂慢（3）loss為0等。模型metrics一般表現為模型的accuracy、precision等metric達不到預期。

精度問題的直接現象較容易觀察，借助mindinsight等視覺化工具，還可以在梯度、權重、啟用值等張量上觀察到更多現象。常見現象如：（1）梯度消失（2）梯度**（3）權重不更新（4）權重變化過小（5）權重變化過大（6）啟用值飽和等。

常見原因

有果必有因，在現象的背後，是精度問題的原因，可以簡單分為超參問題、模型結構問題、資料問題、演算法設計問題等類別：

超參問題

例如學習率設定不合理，

loss_scale引數不合理，

權重初始化引數不合理等。

模型結構問題

例如運算元使用錯誤（使用的運算元不適用於目標場景），

權重共享錯誤（共享了不應共享的權重），

權重凍結錯誤（凍結了不應凍結的權重），

節點連線錯誤（應該連線到計算圖中的block未連線），

loss函式錯誤，

優化器演算法錯誤（如果自行實現了優化器）等。

資料問題

例如資料缺失值過多，

每個類別中的樣本數目不均衡，

資料中存在異常值，

未對資料進行歸一化，

資料處理引數不正確等。

演算法設計問題

演算法本身設計有缺陷導致精度無法達到預期。

相同現象存在多個可能原因導致精度問題定位難

以loss不收斂為例（下圖），任何可能導致啟用值飽和、梯度消失、權重更新不正確的問題都可能導致loss不收斂。例如錯誤地凍結了部分權重，使用的啟用函式和資料不匹配（使用relu啟用函式，輸入值全部小於0），學習率過小等原因都是loss不收斂的可能原因。

圖 1 相同現象存在多個可能原因導致精度問題定位難

調優思路概述

圖 2精度問題調優思路概述

針對上述精度問題的現象和原因，常用的幾個調優思路如下：檢查**和超參、檢查模型結構、檢查輸入資料、檢查loss曲線。若上述思路都未發現問題，可以讓訓練執行到最後，檢查精度（主要是模型metrics）是否達到預期。

其中，檢查模型結構和超參重在檢查模型的靜態特徵；檢查輸入資料和loss曲線則是將靜態特徵和動態訓練現象結合檢查；檢查精度是否達到預期則是對整體精度調優過程重新審視，並考慮調整超參、解釋模型、優化演算法等調優手段。

為了幫助使用者高效實施上述的精度調優思路，mindinsight提供了配套的能力，如下圖。後面會展開介紹精度調優的準備工作，每個調優思路的細節，以及如何使用mindinsight的功能實踐這些調優思路。

圖 3精度問題定位思路及mindinsight對應能力

MindSpore模型精度調優實踐

Task3 模型調優

模型選擇與調優（KNN）

決策樹模型調優

MindSpore模型精度調優實踐

Task3 模型調優

模型選擇與調優（KNN）

決策樹模型調優

相關推薦