《中國人工智慧學會通訊》 1 7 問句理解

2021-09-23 04:58:39 字數 1361 閱讀 6790

有了知識還不夠,智慧型問答還需要理解人提出的問題,問題理解就是將自然語言轉化為計算機可以理解的形式化語言。讓計算機理解自然語言是非常困的,這也是自然語言處理技術的核心問題。解決這一問題有兩種不同的思路。

第一種是語**析方法 (semantic parsing)。這種方法符合人們的直覺,它將乙個自然語言句子,按照特定的語法,解析成邏輯表示式,這些邏輯表示式可以容易地轉變為知識庫的查詢語言,因為它們已經是沒有歧義的表達語句。

研 究 人 員 設 計 了 很 多 方 法 來 完 成 這 樣 的 轉換[13-16] 。其中,比較常見的是利用組合範疇語法combinatory categorical grammars (ccg) [13, 17] 。ccg 的核心是詞彙,將自然語言的詞彙對映到邏輯表示式的詞彙。除了詞彙之外,ccg 還有一系列的語法規則,按照這些規則將詞彙組合起來,就得到了最終的邏輯表示式。

然而,在這類方法中起到至關重要作用的詞彙一般都是人工生成的,這樣的詞彙缺乏領域適應性,如果問答系統從乙個領域換到另外乙個領域,就要重新生成一批特定詞彙。自動學習這種詞彙成為了研究的重點[16-18] 。另一方面,ccg有多種語法組合規則,有時,乙個問句會有不同的解析方式,因此,如何選擇正確的解析方式也成為乙個問題,使用概率化的 ccg [19]可以解決這一問題。

第二種是基於資訊檢索的方法。這種方法避開了最難的自然語言理解部分,將語**析問題轉化為檢索問題。首先,找到問句中所涉及到的知識庫資源;然後,按一定的規則(可以是學習得到的規則),將這些資源組合成規範查詢語言。這種方法相對來說比較簡單易用,而且通常不用人工去設計詞彙,所以適用於多個領域,相應的缺點是不如語**析方法精確。

如 果 我 們 只 針 對 一 個 特 定 的 知 識 庫( 例 如freebase)來做簡單的事實性問答,那麼可以使用更加簡單但效果明顯的檢索式方法[20] 。即先用命名實體識別工具得到問句中的主實體,然後再找出問句中所提問的關係,或者說屬性。一般來說,命名實體識別這個步驟相對容易,因為乙個實體的表示方式有限。而找到關係則更困難,因為自然語言描述同一關係的表達方式多種多樣。例如,中文裡表達「配偶」這一關係的說法就有妻子、丈夫、結婚等等多種說法,因此重點就是找到問句所詢問的關係。好在知識庫中和某一實體相關的關係數量是有限的,可以排除很多無關的關係。在 freebase這樣的知識庫問答中,這種方法是很有優勢的。當然,這種方法的缺點也明顯,就是無法處理複雜的問句。

受其啟發,近年來有很多任務作利用神經網路的方法繼續對其進行了改進。文獻 [21] 使用了卷積神經網路來對映關係。值得一提的是,最近的一些工作[22-23]更進一步地利用端到端的方法,直接將問句和最終的答案做匹配,絡在其中起到了重要作用,並且這種方法也取得了不俗的效果。

綜上,問句理解是問答系統中最核心的環節,因為正是這個過程將人類的自然語言轉化為計算機可以處理的形式。這種困難不只是智慧型問答所需要克服的,而是整個人工智慧領域所面對的共同難題。

《中國人工智慧學會通訊》 2 24 結 果

我們將人類 bpl 以及其他模型在 5 個概念學習任務上的結果並列進行對比,檢驗僅從乙個或一些樣例得到的不同形式的泛化 見圖 5 的樣例任務 所有的行為實驗都是通過亞馬遜土耳其機械人 mechanical turk 進行的,實驗的詳細流程請參考 s5 章節。主要實驗結果總結在圖 6 中,額外的殘缺分...

《中國人工智慧學會通訊》 3 28 討 論

近年來,各種型別的 機械人層出不窮,人機互動控制策略對於 機械人實現臨床應用意義重大。通過上文的回顧分析,可以看出,現有人機互動控制依然存在如下問題。目前還不存在一種通用的人機互動控制策略。針對患者損傷部位及損傷程度採用合適的控制策略是常規的方案,但正如前文所述,現有 機械人系統的互動控制系統通常缺...

《中國人工智慧學會通訊》 1 32 詞嵌入

在此基礎上,也有研究者關注如何利用已有的知識庫來改進詞嵌入模型。wang 等人 5 結合知識圖譜和未標註語料在同一語義空間中來聯合學習知識和詞的向量表示,這樣可以更有效地實體詞的嵌入。rothe等人 6 直接利用 wordnet 知識庫的詞和語義集的關係來學習詞嵌入,能更好地利用已有的知識庫。該 獲...