跨語言詞向量筆記1 序言與分類方法

2021-09-27 16:38:03 字數 1596 閱讀 7320

本文完全來自於anders søgaard等人的著作[søgaard2019]

提出跨語言詞向量的目的是在跨語言應用中表示各語言單詞詞義,並跨語言傳遞學到的知識。跨語言詞向量使得模型可以在多語言上下文中推理詞義,也可以計算不同語言單詞的相似度,有利於跨語資訊提取。此外,由於跨語詞向量有助於跨語言傳遞學到的知識,因此當一門語言資源豐富,另一語言資源匱乏時,這種模型尤其重要。

需要注意的是,使用神經機器翻譯(nmt)也可以隱式地學到跨語言詞向量,而本文所提到的模型都是顯式學習跨語言詞向量,學習速度和效率都比nmt要快,代價更低。原書不僅對近五年(2023年-2023年)跨語言詞向量的學習方法做了乙個全面的調研,同時還透過它們不同的表象揭示了它們相似的本源

(本文所用記號與原文稍有不同,原文使用黑正體x

\bf x

x代表向量,與大多數文章(包括維基詞條)一致。本文繼續使用黑斜體x

\boldsymbol

x代表向量,與花書保持一致)

本書大部分內容討論了對有監督跨語言詞向量建模方法做分類時所考慮的兩個維度,分別是監督學習需要的對齊型別,以及對齊結果所編碼的語言之間進行比較的資訊。根據以往的文獻,演算法細節和模型結構並不重要,重要的是訓練所使用的資料,因此本文提出的分類方法主要基於資料需求,包括兩種:

對齊型別,即需要什麼樣的對齊資料。有的方法需要細粒度的、詞級別的資訊,例如在各自上下文中,兩個單詞意思是否相同或相似;有的方法只需要對齊句子或者文件即可

比較資訊,即方法是需要平行的資料來源(不同語言之間的翻譯),還是只需要相似的文字就可以。對於後者,方法只需要相同主題的文件,最典型是同乙個維基百科詞條的不同語言頁面

特別地,對齊「訊號」所寓居的文件,按照粒度不同可分為**

本書完成之時,還沒有方法僅依靠意義相同的、文件級別對齊的文字學出跨語言詞向量

[søgaard2019] søgaard, a., vulić, i., ruder, s., & faruqui m. (2019). cross-lingual word embeddings

[ruder2017] ruder, s., vulić, i., & søgaard, a. (2017). a survey of cross-lingual word embedding models. arxiv preprint arxiv:1706.04902.

[levy2014] levy, o., & goldberg, y. (2014). neural word embedding as implicit matrix factorization. in advances in neural information processing systems, neurips 2014 (pp. 2177-2185).

[levy2015] levy, o., goldberg, y., & dagan, i. (2015). improving distributional similarity with lessons learned from word embeddings. transactions of the association for computational linguistics (tacl), 3, (pp. 211-225).

跨語言詞向量筆記6 從跨語言詞向量到多語言詞向量

使用句級別 文件級別資訊的多語詞嵌入 參考文獻 本文完全來自於anders s gaard等人的著作 s gaard2019 s gaard,a.vuli i.ruder,s.faruqui m.2019 cross lingual word embeddings 在獲得了雙語詞向量後,很自然地會考...

c語言與程式設計筆記 指標篇 (1)

基本概念 1 運算元 稱為間接訪問表示式,它的操作語義是引用以運算元為位址的變數。運算元可以是表示式,但其值必須是位址值。所以間訪表示式的值是乙個左值,代表指標所指的變數。而指標所指的型別就是間訪表示式運算的型別。例 int y,x 3 pi x y pi 是先對pi進行 操作,然後計算px,即對p...

課堂筆記 C語言基礎與提高1

c語言基礎與提高 基本資料型別的位元組 整型 int 4個位元組 單精度浮點型float 4個位元組 雙精度浮點型 double 8個位元組 字元型char 1個位元組 長整型 long 4個位元組 8個位元組 64位 短整型 short 2個位元組 sizeof 不是函式,是乙個運算子 例1 下面...