跨語言詞向量筆記1 序言與分類方法

本文完全來自於anders søgaard等人的著作[søgaard2019]

提出跨語言詞向量的目的是在跨語言應用中表示各語言單詞詞義，並跨語言傳遞學到的知識。跨語言詞向量使得模型可以在多語言上下文中推理詞義，也可以計算不同語言單詞的相似度，有利於跨語資訊提取。此外，由於跨語詞向量有助於跨語言傳遞學到的知識，因此當一門語言資源豐富，另一語言資源匱乏時，這種模型尤其重要。

需要注意的是，使用神經機器翻譯（nmt）也可以隱式地學到跨語言詞向量，而本文所提到的模型都是顯式學習跨語言詞向量，學習速度和效率都比nmt要快，代價更低。原書不僅對近五年（2023年-2023年）跨語言詞向量的學習方法做了乙個全面的調研，同時還透過它們不同的表象揭示了它們相似的本源

（本文所用記號與原文稍有不同，原文使用黑正體x

\bf x

x代表向量，與大多數文章（包括維基詞條）一致。本文繼續使用黑斜體x

\boldsymbol

x代表向量，與花書保持一致）

本書大部分內容討論了對有監督跨語言詞向量建模方法做分類時所考慮的兩個維度，分別是監督學習需要的對齊型別，以及對齊結果所編碼的語言之間進行比較的資訊。根據以往的文獻，演算法細節和模型結構並不重要，重要的是訓練所使用的資料，因此本文提出的分類方法主要基於資料需求，包括兩種：

對齊型別，即需要什麼樣的對齊資料。有的方法需要細粒度的、詞級別的資訊，例如在各自上下文中，兩個單詞意思是否相同或相似；有的方法只需要對齊句子或者文件即可

比較資訊，即方法是需要平行的資料來源（不同語言之間的翻譯），還是只需要相似的文字就可以。對於後者，方法只需要相同主題的文件，最典型是同乙個維基百科詞條的不同語言頁面

特別地，對齊「訊號」所寓居的文件，按照粒度不同可分為**

本書完成之時，還沒有方法僅依靠意義相同的、文件級別對齊的文字學出跨語言詞向量

[søgaard2019] søgaard, a., vulić, i., ruder, s., & faruqui m. (2019). cross-lingual word embeddings

[ruder2017] ruder, s., vulić, i., & søgaard, a. (2017). a survey of cross-lingual word embedding models. arxiv preprint arxiv:1706.04902.

[levy2014] levy, o., & goldberg, y. (2014). neural word embedding as implicit matrix factorization. in advances in neural information processing systems, neurips 2014 (pp. 2177-2185).

[levy2015] levy, o., goldberg, y., & dagan, i. (2015). improving distributional similarity with lessons learned from word embeddings. transactions of the association for computational linguistics (tacl), 3, (pp. 211-225).

跨語言詞向量筆記1 序言與分類方法

跨語言詞向量筆記6 從跨語言詞向量到多語言詞向量

c語言與程式設計筆記指標篇（1）

課堂筆記 C語言基礎與提高1

跨語言詞向量筆記1 序言與分類方法

跨語言詞向量筆記6 從跨語言詞向量到多語言詞向量

c語言與程式設計筆記 指標篇 （1）

課堂筆記 C語言基礎與提高1

相關推薦

c語言與程式設計筆記指標篇（1）