可應用於實際的14個NLP突破性研究成果(二)

2021-09-12 23:58:26 字數 4511 閱讀 2895

摘要:最好的**是可以直接走出實驗室!nlp年度最佳應用**大集錦!
可應用於實際的14個nlp突破性研究成果(一)4.what you can cram into a single vector: probing sentence embeddings for linguistic properties**摘要儘管最近在訓練高質量的句子嵌入上做出了很多的努力,但是大家仍然對它們所捕捉的內容缺乏了解。基於句子分類的『downstream』tasks通常用於評估句子表示的質量。然而任務的複雜性使得它很難推斷出句子表示**現了什麼樣的資訊。在本文將介紹10個probing tasks,旨在捕捉句子的簡單語言特徵,並用它們來研究由三種不同編碼器產生的句子嵌入,這些編碼器以八種不同的方式進行訓練,揭示了編碼器和訓練方法的有趣特性。

總結

facebook ai研究團隊試圖更好地理解句子嵌入所捕獲的內容。因為任務的複雜性不允許我們直接獲得理解。因此,**介紹了10個旨在捕捉句子簡單語言特徵的**任務。通過這些探測任務獲得的結果可以揭示編碼器和訓練方法的一些有趣特性。

**的核心思想是什麼?

1.   表面資訊(句子中的單詞數、單詞內容);

2.   句法資訊(詞序、句子的層次結構、最高成分的順序);

3.   語義資訊(主句動詞的時態、主語和賓語的數量、隨機替換的單詞)。

什麼是關鍵成就?

1.   由於自然語言輸入的冗餘,bag-of-vectors所擅長得捕獲句子級屬性令人驚訝。

2.   相似效能的不同編碼器架構可導致不同的嵌入。

3.   卷積架構的整體探測任務效能與最佳lstm架構的效能相當。

4.   bilstm-max在探測任務中優於bilstm。此外,即使沒有經過任何訓練,它也能實現非常好的效能。

未來的研究領域是什麼?

什麼是可能的商業應用?

1、更好地理解不同預訓練編碼器捕獲的資訊將有助於研究人員構建更多具有語言意識的編碼器。反過來,這將改善將會被應用在nlp系統中。

你在**可以得到實現**?

1、github上提供了本研究**中描述的探測任務。

5.swag:乙個用於給定資訊的常識推理的大規模對抗性資料集

**摘要

人類可以因為一些描述從而推斷出下面要發生什麼,例如「她開啟汽車的引擎蓋」,「然後,她檢查了發動機」。在本文中,我們介紹並整理了基礎常識推理。我們提出swag,乙個新的資料集,包含113k多項選擇問題,涉及豐富的基礎推理。為了解決許多現有資料集中發現的注釋工件和人類偏見的反覆出現的挑戰,我們提出了一種新穎的過程,它通過迭代訓練一組風格分類器構建乙個去偏見的資料集,並使用它們來過濾資料。為了解釋對抗性過濾,我們使用最先進的語言模型來大量過濾一組不同的潛在反事實。實證結果表明,雖然人類可以高精度地解決由此產生的推理問題(88%),但各種競爭模型仍在努力完成我們的任務。

總結

當你讀到「他將生雞蛋麵糊倒入鍋中時,他…」你可能會這樣選擇「提起鍋並移動它來攪拌。」我們可以發現,答案並不明顯,這需要常識推理。swag是支援研究自然語言推理(nli)與常識推理大規模資料集。它是使用一種新穎的方法——對抗性過濾建立的,它可以以最經濟有效的方式構建未來的大規模資料集。

**的核心思想是什麼?

3、使用對抗過濾(af)生成錯誤的答案。

1、大量生成錯誤答案,然後選擇哪些看起來像真正答案的回答。

2、過濾模型確定哪些回答似乎是機器生成的。這些回答被刪除並替換為模型認為是人為編寫的新回答。

什麼關鍵成就?

1、句子的多樣性不受人類創造力的限制;

2、資料集建立者可以在資料集構建期間任意提高難度;

3、人類不會寫回答但只會驗證它們,這樣更經濟;

ai社群的想法是什麼?

未來的研究領域是什麼?

使用更好的adversarial filtering和語言模型建立更具對抗性的swag版本。

什麼是可能的商業應用?

該資料集可以幫助構建具有常識推理的nli系統,從而改善q&a系統和會話ai的開發。

你在**可以獲得實現**?

1、swag資料集可在github上獲得。

6.(elmo詞向量模型)

**摘要

本文推出了一種新的基於深度學習框架的詞向量表徵模型,這種模型不僅能夠表徵詞彙的語法和語義層面的特徵,也能夠隨著上下文語境的變換而改變。簡單來說,本文的模型其實本質上就是基於大規模語料訓練後的雙向語言模型內部隱狀態特徵的組合。實驗證明,新的詞向量模型能夠很輕鬆的與nlp的現有主流模型相結合,並且在六大nlp任務的結果上有著巨頭的提公升。同時,作者也發現對模型的預訓練是十分關鍵的,能夠讓下游模型去融合不同型別的半監督訓練出的特徵。

總結

艾倫人工智慧研究所的團隊引入了一種新型的深層語境化詞彙表示:語言模型嵌入(elmo)。在elmo增強模型中,每個單詞都是根據使用它的整個上下文進行向量化的。將elmo新增到現有nlp系統可以實現:

1:相對誤差減少範圍從6-20%;

2:顯著降低訓練模型所需的時期數量;

3:顯著減少達到基線效能所需的訓練資料量。

**的核心思想是什麼?

取得了什麼關鍵成就?

ai社群對其的評價?

未來的研究領域是什麼?

1、通過將elmos與不依賴於上下文的詞嵌入連線起來,將此方法合併到特定任務中。

可能的商業應用的範圍是什麼?

elmo顯著提高了現有nlp系統的效能,從而增強了:

1.   聊天機械人將更好地理解人類和回答問題;

3.   查詢相關資訊和檔案等;

你在**可以得到實現**?

艾倫研究所提供英語和葡萄牙語預訓練的elmo模型,你還可以使用tensorflow**重新訓練模型。

7.用於低資源神經機器翻譯的元學習

**摘要

在本文中,我們建議擴充套件最近引入的模型:不可知元學習演算法(maml),用於低資源神經機器翻譯(nmt)。我們將低資源翻譯構建為元學習問題,並且我們學習基於多語言高資源語言任務來適應低資源語言。我們使用通用詞彙表示來克服不同語言的輸入輸出不匹配的問題。我們使用十八種歐洲語言(bg,cs,da,de,el,es,et,fr,hu,it,lt,nl,pl,pt,sk,sl,sv和ru)評估所提出的元學習策略,源任務和五種不同的語言(ro,lv,fi,tr和ko)作為目標任務。我們證實了,所提出的方法明顯優於基於多語言遷移學習的方法,這能夠使我們只用一小部分訓練樣例來訓練有競爭力的nmt系統。例如,通過通過16000個翻譯單詞(約600個並行句子),用所提出的方法在羅馬尼亞語-英語wmt'16上實現高達22.04 bleu。

總結

香港大學和紐約大學的研究人員使用模型無關的元學習演算法(maml)來解決低資源機器翻譯的問題。特別是,他們建議使用許多高資源語言對來查詢模型的初始引數,然後,這種初始化允許僅使用幾個學習步驟在低資源語言對上訓練新的語言模型。

**的核心思想是什麼?

關鍵成就是什麼?

1、能夠在高資源和極低資源語言對之間共享資訊;

2、僅使用幾千個句子來微調低資源語言對上的新翻譯模型;

1、元學習始終比多語言遷移學習好;

2、元學習驗證集語言對的選擇會影響結果模型的效能。例如,當使用羅馬尼亞語-英語進行驗證時,芬蘭語-英語受益更多,而土耳其語-英語則更喜歡拉脫維亞語-英語的驗證。

ai社群對它的看法?

未來的研究領域是什麼?

什麼是可能的商業應用?

你在**可以得到實現**?

1、metanmt的pytorch實施可以在github上找到。

閱讀原文

可應用於實際的14個NLP突破性研究成果(三)

8.用於語義角色標註的語言學資訊自我注意力方法 摘要 當前最先進的語義角色標記 srl 使用深度神經網路,但沒有明確的語言特徵。之前的工作表明,抽象語法樹可以顯著改善srl,從而提高模型準確性。在這項研究中,我們提出了語言學的自我關注 lisa 該神經網路模型將 multi head self at...

可應用於實際的14個NLP突破性研究成果(三)

8.用於語義角色標註的語言學資訊自我注意力方法 摘要 當前最先進的語義角色標記 srl 使用深度神經網路,但沒有明確的語言特徵。之前的工作表明,抽象語法樹可以顯著改善srl,從而提高模型準確性。在這項研究中,我們提出了語言學的自我關注 lisa 該神經網路模型將 multi head self at...

php可應用於麵包屑導航的遞迴尋找家譜樹實現方法

area array ar程式設計客棧ray id 1,area 北京 pid 0 array id 2,area 廣西 pid 0 array id 3,area 廣東 pid 0 array id 4,area 福建 pid 0 array id 11,area 朝陽區 pid 1 array ...