深度學習零基礎高階第四彈

開放性文字的語**析主要是通過推斷相應的含義（meaning representation, mr）, 以理解在自然語言中的任意宣告。但可惜的是，目前的大規模系統由於缺少直接的可監督資料，並不能實現深度學習。而在《joint learning of words and meaning representations for open-text semantic parsing》一文中，作者 antoine bordes 採用了一本超過 70000 詞，能對映超過 40000 個實體的字典作為文字樣本，通過知識庫的建立從未經處理的文字裡進行語義的理解學習。在乙個多工訓練模式中，實體及 mr 能夠對不同**的資料進行處理。因此，該系統能夠最終將單詞與所代表的含義在開放性文字中建立聯絡。

[1]

《distributed representations of words and phrases and their compositionality》一文是谷歌研究院在 2013 年的乙個語言分析成果，主要介紹的是單詞及短語的分布式以及它們的組成性。團隊引入了乙個名為「skip-gram」的語言處理模型，它能有效地捕獲大量的精確語法和語義關係。而他們在研究中提高了向量和訓練的速度及質量，並提出了乙個名為「負取樣」（negative sampling）的研究模式。詞語之間受排列順序及使用習慣的問題，不能輕易地聯想到它們之間的關係。比如「canada」和「air」，可能沒辦法第一時間想到是「加拿大航空」（canada air）。在文章的最後，團隊提出了一種能夠在文字中查到短語並予以呈現的簡單方法，這對要學習數百萬個短語之間的向量關係大有益處。

[2]

雖然深度神經網路（dnn）在機器學習領域是一種強大的模式，但如何用神經網路掌握詞序間的聯絡？《sequence to sequence learning with neural networks》給了我們乙個很好的參考。作者採用了多層長短期儲存器（lstm）將輸入序列對映到固定維數的向量，並將另乙個深度 lstm 從向量中解碼目標序列。通過英語到法語間的翻譯任務測試，lstm 的 bleu 得分達到了 34.8，此外在翻譯長句子上毫無難度。而作為比較，基於短語的得分在相同的資料集上達到了 33.3。當研究者採用 lstm 系統重新進行測試後，bleu 得分達到了 36.5，已經接近最佳得分。而研究者們對所有源的語句進行顛倒順序，以改進 lstm 的效能，這樣一來，短語的依附性會減少，讓優化過程更加容易。

[3]

這篇標題有點賣萌的《ask me anything: dynamic memory networks for natural language processing》主要介紹了自然語言處理的動態記憶體網路（dmn）。自然語言處理的大多數任務都可以轉換為 qa 問題，dmn 作為乙個神經網路架構，能夠處理輸入的問題，形成情景記憶並產生相關的答案。問題會觸發乙個迭代過程，允許模型引用輸入的內容及以前迭代的結果。隨後，這些結果會在層次迴圈序列模型中進行推理以產生答案。dmn 支援端對端訓練，並且能獲取多種型別的任務及資料集裡的最優結果：問題解答（facebook 的 babl 資料集）、情緒分析文字分類（斯坦福情感樹庫）及基於演講標註的序列建模（wsj-ptb）。這三個基於不同任務的訓練主要依賴訓練的單詞向量，並按照「輸入-問題-回答」三部曲的流程來進行。

[4]

發布於 2015 年的《character-aware neural language models》主要從字元角度出發進行研究。目前所做的**依然是基於詞語層面的。模型主要建立了乙個卷積神經網路及基於詞性的高速網路，其輸出基於 lstm 及遞迴神經網路模型。此研究基於英國的 penn 資料庫而完成，該模型採用的引數比起現有技術水平少了 60%，不過模型採用了多種語言（阿拉伯語、捷克語、法語、德語、西班牙語、俄語）。在使用較少引數的情況下，效果優於詞級/語素級就 lstm 基線。結果顯示，目前基於多種語言，字元的輸入已經能夠滿足語言建模，通過分析字元，進而判斷單詞所代表的含義，這一過程揭示，這一模型只需要依賴字元就能實現語義編碼及正交資訊。

[5]如果你對 babi 任務產生了興趣，不妨看下《towards ai-complete question answering: a set of prerequisite toy tasks》。機器學習研究的乙個長期目標建立適用於推理及自然語言的方法，尤其在智慧型對話機制領域。為了實現這一點，團隊通過問題評估其閱讀理解的能力，對一組任務的有用性進行測試。主要的考察點在於：乙個系統是否能通過事實匹配、簡單歸納、推理等步驟回答問題。任務設計的標準主要集中於它是否能與人類進行交流。因此，團隊將這些任務按技能分類，以便研究人員判斷系統是否真正掌握了這一方面的技巧，並有針對性地進行優化。團隊此外還拓展和改進了引入的記憶體網路模型，結果顯示它能夠解決一些問題（並不是所有的問題）。

[6]

《teaching machines to read and comprehend》實際上要教會機器閱讀自然語言文件還是有點挑戰的，雷鋒網此前也報道過不少相關的研究成果。機器閱讀系統能夠測試機器在閱讀完乙份文件後，對提出問題進行解答的能力。在這篇**中，團隊開發了乙個神經網路，教機器學會閱讀日常文件，並用最簡單的語言結構回答複雜的問題。這個測試實際上有點像 cnn 及 dailymail 裡出現的那種填空式的問題。不過，到目前為止這一系統依然缺少大規模訓練和測試的資料集。這篇**有時間的話可以稍微了解一下，但並不是非常推薦。

[7][8]

[9]

以上便是在自然語言處理領域的一些必讀研究**，感興趣的小夥伴們可以看起來了！

深度學習零基礎高階第四彈

零基礎深度學習

基礎學習第四彈

零基礎學習Python之路第四天

深度學習零基礎高階第四彈

零基礎深度學習

基礎學習第四彈

零基礎學習Python之路 第四天

相關推薦

零基礎學習Python之路第四天