CS224N 子詞模型(subwords)

2021-10-05 22:54:03 字數 1431 閱讀 8230

二、subword model

三、subword-level language model

四、hybrid nwt

五、character-level

因為人類書寫系統多種多樣,同時詞語存在形態變換,音譯,縮寫以及網路用語等現象,所以僅在word level進行建模是不夠的,需要model blow word,即對組成詞語的詞素、音素等基本單元進行建模,從而獲得詞語的形態特徵和語音、音韻特徵。(儘管傳統研究不認為詞素、音素具備語義資訊)

《neural machine translation of rare words with subword units》(acl2016)中採用一種稱之為「byte pair encoding」的方法來實現subword model,詳見cs224n課件lecture12。

word piece是指在word內部進行分詞,然後借助於n-gram 語言模型生成char序列的embedding,即subword,然後根據subword embeding來獲得對應word的embedding。代表模型是google nwt v1。

bert模型中也使用了word piece的方法。在bert中,對於常用詞,採用word embedding;而對於未登入詞,則採用word piece的方法來得到相應的embedding。

sentence piece model則是將空格視為一種特殊的符號「_」,然後直接對raw text進行分詞。代表模型是google nwt v2。

subword-level language model 希望通過多語言的大量語料來訓練出乙個有效的語言模型(因為不同語言在書寫形式上具有較大的差異,所以word-level 語言模型都是基於某種特定語言的語料來進行訓練的)。其優勢在於:

該模型通過highway network來連線不同粒度的詞向量。其實驗結果證明了cnn+highway network可以獲取豐富的語義和結構資訊。

subword model的另一種思路是在模型中採用word-level與character-level的混合詞向量,例如google 的hybrid nwt。(achieving open vocabulary neural machine translation with hybrid word-character models. acl 2016.)

hybrid nwt採用encoder+decoder的結構:

從結果來看,word-level model會出現邊界對齊錯誤,複製錯誤;char-level會出現翻譯錯誤;hybrid可以有效避免這些錯誤。

與word-level mode相比,char-level model的優勢在於

CS224n 詞向量模型和GloVe

語言學家j.r.firth提出,通過乙個單詞的上下文可以得到它的意思,所以我們可以定義乙個以 某個單詞的上下文的模型 p context wt 我們的目標當然是希望概率p越大越好,所以我們可以定義乙個目標函式 j t 1t m j m,j 0p wt j wt 我們的目的就是最大化上面這個目標函式。...

CS224N 語言模型介紹

語言模型實現 語言模型是指根據給定序列 下乙個單詞的任務,其形式化表達為 給定單詞序列x 1 x 2 x t 然後 單詞x t 1 的概率分布 語言模型的另一種定義是給給定文字序列分配概率 這個概率代表了該文字序列出現的可能性大小 例如,給定一段文字x 1 x 2 x t 那麼這段文字出現的概率為 ...

CS224n筆記一 開端

自然語言處理的目標是讓計算機處理或者 理解 自然語言,以完成有意義的任務,如qa等。形態學 morphological analysis 或稱詞法或者詞彙形態學。其研究詞的內部結構,包括屈折變化和構詞法兩個部分。句法分析 syntactic analysis 和語義分析 semantic inter...