《中國人工智慧學會通訊》 2 24 結果

我們將人類、bpl 以及其他模型在 5 個概念學習任務上的結果並列進行對比，檢驗僅從乙個或一些樣例得到的不同形式的泛化（見圖 5 的樣例任務）。所有的行為實驗都是通過亞馬遜土耳其機械人（mechanical turk）進行的，實驗的詳細流程請參考 s5 章節。主要實驗結果總結在圖 6 中，額外的殘缺分析與控制在 s6 章節中匯報。

單次分類是基於 10 個不同的字元系統的一系列系統內分類任務進行評估的。如圖1b i 所示，給定乙個新字元的一張，參與者需要從來自同乙個字元系統的 20 個不同字元中挑選出與給定字元相同的另乙個樣例。分類效能展示在圖 6a 中，隨機猜的錯誤率是 95%。作為乙個基準演算法，通過計算與中心的改進的 hausdorff 距離進行分類的方法錯誤率為 38.8%。人類具有非常熟練的單次學習能力，能夠達到平均錯誤率為 4.5%（n=40）。bpl 演算法可以達到類似的錯誤率 3.3%，超過了深度卷積網路（13.5% 的錯誤率）和 hd 模型（34.8%的錯誤率）——兩者都是**於在計算機視覺任務上效能優異的深度學習演算法。乙個針對該單次學習任務優化的深層連體卷積網路可以達到 8.0% 的錯誤率，幾乎是人類和我們模型錯誤率的兩倍。bpl 演算法的優勢在於在概念學習時建模了潛在的因果性過程，這種策略是和這裡對比的深度學習方法所不同的。bpl 其他關鍵要素也起到了正面的作用，這可以通過殘缺版本 bpl 演算法的錯誤率得到佐證，缺少學會學習（僅記號層次）的 bpl 錯誤率為 11.0%，缺少組合性的 bpl 演算法錯誤率為 14.0%。通過拆分生成模型學得的超參，我們分別從型別層次和記號層次分析了學會學習的作用。對組合性的評估則是通過將 bpl 與乙個只允許單樣條筆畫的匹配模型進行對比，該模型和早期的手寫字元合成式分析模型有類似的侷限性。

人類單次學習的能力遠不止於進行分類，而是會形成一整套能力，例如產生概念的新樣例。我們通過「視覺圖靈測試」來對比人類和機器的創造性輸出，給定一對人類和機器產生的樣例，要求人工評審來識別哪個是機器產生的。在我們最基本的任務裡，由 9 個人在看到給定概念的單個樣例後畫出該概念的乙個新樣例，同時 bpl 演算法產生該概念的 9 個新樣例，評審們將對這些新樣例進行比較（見圖 5）。我們基於評審的準確率來評估各個模型，稱該準確率為辨識（id）水平：理想的模型效能將達到 50% 的辨識水平，意味著模型行為和人類行為無法區分；最壞情況的效能則是 100%。每個評審（n=147）在無反饋的情況下完成了 49 次試驗，並對評審結果進行了單獨和整合的分析。結果展示在圖 6b（new exemplars）中。在區分人類和 bpl 行為上，評審僅達到平均為 52% 的辨識水平。從整體來看，該效能幾乎和隨機猜相當[t(47)=2.03,p=0.048]，48 個評審中僅有 3 個的辨識水平是可靠地高於隨機猜的。我們把評審分成幾個不同的組，分別對殘缺模型進行視覺圖靈測試的評價，以檢驗 bpl 模型各要素的必要性。如果缺了學會學習（僅記號層次）和組合性，會讓圖靈測試明顯變得簡單（分別為 19 個評審中的 17 個達到80% 辨識水平，26 個評審中的 14 個達到 65% 辨識水平），這也說明了該圖靈測試並不是乙個很容易通過的任務，同時也說明了這兩個準則對於 bpl產生類似人類那樣的生成能力是有貢獻的。為了更直接的評價解析過程（見圖 4b），對另外一組評審（n=143）進行了乙個動態版本的測試，在每次的試驗中會展示一組人和 bpl 寫出同乙個字元的影片。在這個動態圖靈測試上 bpl 效能並不完美（平均 59% 的辨識水平，見圖 6b new exemplars（dynamic）），如果把學得的筆畫順序和方向的先驗做隨機擾動會顯著提高辨識水平（71%），這也說明了 bpl 捕捉到正確的因果動態性的重要性。

儘管我們證明了基於 30 個背景字元系統可以有效地學會學習新字元，但人類其實需要的經驗可以更少：也許只熟悉乙個或幾個字元系統，以及一些相關的書寫任務即可。為了進一步檢驗本模型假如使用更有限的經驗會表現如何，我們基於兩個只包含 5 個背景字元系統的子集合重新訓練模型。結果發現，該 bpl 演算法可以和基於 30 個字元系統學的模型在單次分類上達到類似的效能（兩個集合上分別是 4.3% 和 4.0% 的錯誤率）；相反，深度卷積網路效能卻顯著下降（分別為 24.0% 和 22.3%的錯誤率）。在視覺圖靈測試的新樣例生成任務上（n=59），bpl 演算法基於第乙個子集合的效能基本和之前接近（平均為 52% 的辨識水平，和隨機猜沒有顯著的區別 t(26)=1.04，p>0.05）,27 個評審中只有 3 個可靠地優於隨機猜，但是基於第二個子集合的效能略微差些（57% 的辨識水平，t(31)=4.35，p<0.001；32 個評審中有 7 個可靠地優於隨機猜）。這些結果表明，儘管學會學習對於bpl 的成功很重要，但是是模型的結構使得它幾乎充分地利用到了比較有限的背景訓練資料。

人類的創造能力遠不止於對給定的概念生成幾個新樣例——人們還可以創造出全新的概念。我們對此也進行了測試，從 10 種外語字元系統中找出一種並展示它的一些字元給參與者，要求參與者能夠很快地創造出乙個看起來也屬於該字元系統的新字元（見圖 7a）。bpl 模型也能夠捕捉到這種行為，它是通過在型別層面設定乙個非參先驗，使得模型偏好於重用從字元樣例中學得的筆畫來產生風格一致的新字元（見 s7 章節）。人工評審基於視覺圖靈測試，通過檢視一系列如圖 7a i 和 iii 展示的字元，對人類和 bpl 進行了對比。評審平均只有 49% 的辨識水平（見圖 6b，new concepts（from type）），和隨機猜沒有顯著的不同（t(34)=0.45，p>0.05）。單獨的看，35 個評審中只有 8 個的辨識水平是顯著高於隨機猜的。相反，缺了學會學習的模型卻可以被另一組評審們在 69% 的視覺圖靈測試中成功檢測出來（25 個評審中的 18 個高於隨機猜），顯然比 bpl 模型容易檢測得多。在 s6 章節中的進一步比較顯示是模型生成合理的新字元的能力，而不是風格一致本身，才是通過這項測試的關鍵因素。根據評審的辨識水平，我們還發現在比較人類和 bpl在該任務的效能**審之間差異更明顯：35 個評審中有 10 個評審單獨的辨識水平顯著低於隨機猜；相反，在圖 6b 所示的其他實驗中，對於 bpl 模型僅有 2 個評審有低於隨機猜的辨識水平。

最後，評審在乙個完全開放的生成新字元概念的任務上（即不需要受限於某個特定的字元系統）對人類和模型進行了對比（見圖 7b）。bpl 演算法如果基於字元型別 p(ψ) 的先驗進行取樣能夠在視覺圖靈測試中達到 57% 的平均辨識水平；如果基於非參先驗從背景字符集中重用推斷得到的部件，bpl 演算法可以達到 51% 的辨識水平（見圖 7b 以及圖 6b new concepts（uncosntrained）；辨識水平和隨機猜沒有顯著差別 t(24)=0.497，p>0.05；25個評審中的 2 個優於隨機猜）。殘缺分析揭示了組合性（68%）和學會學習（64%）對於通過該項測試至關重要。

《中國人工智慧學會通訊》 2 24 結果

《中國人工智慧學會通訊》 3 28 討論

《中國人工智慧學會通訊》 1 32 詞嵌入

《中國人工智慧學會通訊》 7 14 研究展望

《中國人工智慧學會通訊》 2 24 結 果

《中國人工智慧學會通訊》 3 28 討 論

《中國人工智慧學會通訊》 1 32 詞嵌入

《中國人工智慧學會通訊》 7 14 研究展望

相關推薦

《中國人工智慧學會通訊》 2 24 結果

《中國人工智慧學會通訊》 3 28 討論