NLP 如何評估詞向量

目前詞向量的評估一般分為兩大類：extrinsic evaluation和 intrinsic evaluation。即內部評估和外部評估。

內部評估直接衡量單詞之間的句法和語義關係。這些任務通常涉及一組預先選擇的查詢術語和語義相關的目標詞彙，我們將其稱為query inventory。

當前絕大部分工作（比如以各種方式改進 word embedding）都是依賴wordsim353 等詞彙相似性資料集進行相關性度量，並以之作為評價 word embedding 質量的標準。然而，這種基於 similarity 的評價方式對訓練資料大小、領域、**以及詞表的選擇非常敏感。而且資料集太小，往往並不能充分說明問題。

評價資料集往往是成對的單詞，兩個單詞的 embedding 余弦相似度計算出來應該具有較高的相關性（spearman 或 pearson）和人的主觀評價分數。

假設給了一對單詞 (a , b) 和乙個單獨的單詞 c，task 會找到乙個單詞 d，使得 c 與 d 之間的關係相似於 a 與 b 之間的關係。舉個簡單的例子：(中國，北京)和日本，應該找到的單詞應該是東京，因為北京是中國的首都，而東京也是日本的首都。在給定 word embedding 的前提下，task 一般是通過在詞向量空間尋找離 (b-a+c) 最近的詞向量來找到 d。

比如詞性標註、命名實體識別、句法分析、句子分類等，將詞向量作為輸入，衡量下游任務指標效能的變化。

但這種評估只能方法只是提供了一種證明 embedding 優點的方法，而不清楚它是如何與其他衡量指標聯絡其他的。也就是說，基於具體應用的評價是一種間接方式，中間還隔了一層。

雖說如此，根據** evaluation methods for unsupervised word embeddings，還是這種方法最好，並且此**提出了新的評估方法。

也可以做視覺化來展示評估，使用 t-sne 等。

NLP 如何評估詞向量

NLP（四）詞向量

nlp期末複習詞向量

莫煩nlp 詞向量 skim gram

NLP 如何評估詞向量

NLP（四）詞向量

nlp期末複習 詞向量

莫煩nlp 詞向量 skim gram

相關推薦

nlp期末複習詞向量