AI測試人工智慧 AI 測試開篇

舉個例子，把人工智慧比做水果。如果有人問你「水果是怎麼吃的」，你可能不知道怎麼回答。

在不知道是什麼型別的水果，或者具體是什麼水果的時候，恐怕不能很好的回答這個問題。

那正確的問法是什麼，可以從具體的人工智慧應用的來問：

目前應用最廣泛的人工智慧也是這四個型別。

剛剛把人工智慧比作水果，我們知道，吃水果的方法有很多。可以把機器學習比作一種吃水果的方法。如果用刀切這種方法。深度學習又是機器學習的乙個分支。大概的關係圖如圖中顯示。

一般這些專案都要測試什麼，要進行什麼型別的測試。

1. 模型評估測試

模型評估主要是測試模型對未知新資料的**能力，即泛化能力。

泛化能力越強，模型的**能力表現越好。而衡量模型泛化能力的評價指標，就是效能度量(performance measure)。效能度量一般有錯誤率、準確率、精確率、召回率等。

2. 穩定性/魯棒性測試

穩定性/魯棒性主要是測試演算法多次執行的穩定性；以及演算法在輸入值發現較小變化時的輸出變化。

如果演算法在輸入值發生微小變化時就產生了巨大的輸出變化，就可以說這個演算法是不穩定的。

3. 系統測試

將整個基於演算法模型的**作為乙個整體，通過與系統的需求定義作比較，發現軟體與系統定義不符合或與之矛盾的地方。

系統測試主要包括以下三個方面：

1、專案的整體業務流程

2、真實使用者的使用場景

3、資料的流動與正確

4. 介面測試

介面測試是測試系統元件間介面的一種測試。介面測試主要用於檢測外部系統與系統之間以及內部各個子系統之間的互動點。測試的重點是要檢查資料的交換，傳遞和控制管理過程，以及系統間的相互邏輯依賴關係等。

5. 文件測試

文件測試是檢驗使用者文件的完整性、正確性、一致性、易理解性、易瀏覽性。

在專案的整個生命週期中，會得到很多文件，在各個階段中都以文件作為前段工作成果的體現和後階段工作的依據。為避免在測試的過程中發現的缺陷是由於對文件的理解不準確，理解差異或是文件變更等原因引起的，文件測試也需要有足夠的重視。

6. 效能測試

7. 白盒測試–**靜態檢查

8. 競品對比測試

如果有涉及時，可針對做競品對比測試，清楚優勢和劣勢。比如ai智慧型音箱產品。

9. 安全測試

發布上線後，線上模型監控

不管是機器學習，推薦系統，影象識別還是自然語言處理，都需要有一定量的測試資料來進行執行測試。

演算法測試的核心是對學習器的泛化誤差進行評估。為此是使用測試集來測試學習器對新樣本的差別能力。然後以測試集上的測試誤差作為泛化誤差的近似。測試人員使用的測試集，只能盡可能的覆蓋正式環境使用者產生的資料情況。正式環境複雜多樣的資料情況，需要根據上線後，持續跟進外網資料。演算法模型的適用性一定程度上取決於使用者資料量，當使用者量出現大幅增長，可能模型會隨著資料的演化而效能下降，這時模型需要用新資料來做重新訓練。

測試集獨立同分布

不能使用訓練資料來做為測試資料，此為獨立。

測試資料需要和訓練資料是同乙個分布下的資料，此為分布。

舉個例子，訓練資料中正樣本和負樣本的分布為7：3，測試資料的分布也需要為7：3，或者接近這個分布，比較合理

測試資料的數量和訓練資料的比例合理

當資料量比較小時，可以使用 7 ：3 訓練資料和測試資料

(西瓜書中描述常見的做法是將大約 2/3 ~ 4/5 的樣本資料用於訓練，剩餘樣本用於測試）

或者 6： 2 : 2 訓練資料，驗證資料和測試資料。

如果只有100條，1000條或者1萬條資料，那麼上述比例劃分是非常合理的。

如果資料量是百萬級別，那麼驗證集和測試集佔資料總量的比例會趨向於變得更小。如果擁有百萬資料，我們只需要1000條資料，便足以評估單個分類器，並且準確評估該分類器的效能。假設我們有100萬條資料，其中1萬條作為驗證集，1萬條作為測試集，100萬里取1萬，比例是1%，即：訓練集佔98%，驗證集和測試集各佔1%。對於資料量過百萬的應用，訓練集可以佔到99.5%，驗證和測試集各佔0.25%，或者驗證集佔0.4%，測試集佔0.1%。

一般演算法工程師會將整個資料集，自己劃分為訓練集、驗證集、測試集。或者訓練集、驗證集等等。（這裡的測試集是演算法工程師的測試資料）

演算法工程師提測時，寫明自測時的準確率或其他指標。測試人員另外收集自己的測試集。

測試資料可以測試人員自己收集。或者公司的資料標註人員整理提供。或者爬蟲。外部購買。

測試人員可以先用演算法工程師的測試集進行執行測試檢視結果。再通過自己的測試集測試進行指標對比。

參考：

AI測試人工智慧 AI 測試開篇

人工智慧 AI

人工智慧（AI）

關於人工智慧（AI）

AI測試 人工智慧 AI 測試 開篇

人工智慧 AI

人工智慧（AI）

關於人工智慧（AI）

相關推薦

AI測試人工智慧 AI 測試開篇