評估智慧型對話機械人的7大資料指標

如果你正負責一款智慧型對話機械人產品，不管是軟體還是硬體，不管叫「小a」還是叫「小b」，總要遇到乙個對於產品本身好壞的衡量指標的難題。如果你是leader更要弄清楚到底怎麼給做這款產品的下屬制定okr及考核指標。

智慧型對話機械人，或者有些公司會將其命名為「智慧型助理」「智慧型小助手」，多數是以「工具+閒聊」的組合方式出現的，因此通常支援多個領域的支援多輪對話。而市面上的產品形態也以是否有gui分為純語音對話互動和多模態對話互動兩種。

而本文討論的目標產品主要聚焦在支援多模態對話互動的「工具+閒聊」的軟硬體產品。當然，單輪指令式機械人或只有vui的純語音機械人也可以進行部分指標維度的借鑑，在此不做特別指出。

評估智慧型對話機械人產品的資料指標維度分為2大部分：產品維度指標、技術維度指標。本文重點聚焦產品維度的7大資料指標，同時給出3個核心技術維度指標供參考。

指標含義：使用了對話機械人產品的使用者數佔使用者總數或者**使用者數的比例。

統計週期：按日、周、月

指標目的：分析對話流程的流暢度

計算公式：最終結果數 / 會話session數

統計週期：按會話session，或按日

指標含義：每次有效會話結束，雖然產品給予了使用者最終結果，但不一定是使用者想要的正確結果。

計算公式：反饋給使用者的正確的結果數 / 反饋結果總數。其中分子的統計口徑有2種，一種是使用者反饋的好評度（如果產品設計有這樣的功能點），一種是人工抽樣。

統計週期：按日

指標目的：分析任務型對話機械人的對話流程健康度

指標含義：某一類任務（或技能）的對話輪次的平均數

計算公式：某類任務的對話輪次/某類任務的對話總數

統計週期：按日

指標目的：分析對話機械人的產品設計友好度

指標含義：某一類任務（或技能）對話中斷的比例

計算公式：某類任務的對話中斷數 /某類任務的對話總數

統計週期：按會話session，按日

指標目的：分析對話機械人的異常率找出關鍵問題並快速修復

指標含義：使用者使用對話機械人過程中的異常狀況出現的比例

計算公式：異常報錯數 / 會話session數

統計週期：按時、日

統計週期：按會話session，按日

指標目的：意圖識別直接影響最終結果是否準確，所以用於分析產品所涉及的領域內使用者意圖識別的準確率

指標含義：正確識別單次會話session使用者意圖識別的準確程度

指標目的：好的泛化能力才能更好的支援人類語言表達的複雜性理解，也是nlp的核心指標

指標含義：對指定模組進行抽樣，看是否支援提問文字、槽位等多種表達形式的識別

指標目的：使用者進行文字/語音輸入時，有概率產生錯誤的、別名類的、或者有歧義的表達，而系統能否根據上下文識別準確的含義或給出多種含義的可能性則直接影響產品的使用者體驗

指標含義：對使用者的對話進行分析，找到三種細分場景的case進行抽樣或模型比對給出相應的正確處理比例