詞向量 如何評價詞向量的好壞

2021-08-21 08:11:38 字數 851 閱讀 8531

詞向量、詞嵌入或者稱為詞的分布式表示,區別於以往的獨熱表示,已經成為自然語言任務中的乙個重要工具,對於詞向量並沒有直接的方法可以評價其質量,下面介紹幾種間接的方法。

對於詞向量的評價更多還是應該考慮對實際任務的收益,脫離的實際任務很難確定a模型就一定比b好,畢竟詞向量方法更多是一種工具。

學生 上課 0.78

教師 備課 0.8

...

上述檔案代表了詞語之間的語義相關性,我們利用標註檔案與訓練出來的詞向量相似度進行比較,如:詞向量之間的cos距離等,確定損失函式,便可以得到乙個評價指標。

但這種方法首先需要人力標註,且標註的準確性對評價指標影響非常大。

這個任務詞向量來考察不同單詞間的語義關係能力,一般給定三個詞,如a、b、c,要求尋找a+b = c + ?任務中最相似的詞,一般使用向量間距離來進行尋找,如:

queen-king+man=women
同樣需要準備標記檔案,根據尋找出來的詞的正確率判斷詞向量的質量。

這個任務利用詞向量構成文字向量,一般採用求和平均的方式,之後利用構成的文字向量進行文字分類,根據分類的準備率等指標衡量詞向量的質量。

對於自然語言處理任務,在模型效果相差不大的情況下,選用簡單的模型。

同樣,複雜的模型對於大規模的語料效果更為明顯,小語料盡量用簡單模型。

選用與自然語言任務同領域的語料,提公升效果會非常明顯,在一定語料規模範圍內,語料越大,效果越好;如果使用不同領域的語料,甚至會有反面效果。

在語料的選擇上,同領域的語料比大規模的其他領域語料重要。

向量維度太小難以表現出語義的複雜度,一般更大的維度的向量表現能力更強,綜合之下,50維的向量可以勝任很多任務。

詞向量簡介

1.什麼是詞向量?每乙個詞典 裡面存著一堆單詞,例如 用nn.embedding模組進行詞嵌入 輸出的就是對應的詞向量。2.什麼是 nn.embedding torch.nn.embedding理解 看這個解釋 3.如何訓練乙個詞向量?skip gram 模型 雖然這個任務並沒有什麼卵用,但它可以幫...

NLP 如何評估詞向量

目前詞向量的評估一般分為兩大類 extrinsic evaluation和 intrinsic evaluation。即內部評估和外部評估。內部評估直接衡量單詞之間的句法和語義關係。這些任務通常涉及一組預先選擇的查詢術語和語義相關的目標詞彙,我們將其稱為query inventory。當前絕大部分工...

詞向量與句向量概述

比較常見的詞向量表示方式 glove fasttext wordrank tfidf bow word2vec 詞向量一般看作是文件特徵,不同詞向量有不同用法,主要有四類詞向量 1.hash演算法及衍生 2.bow演算法延伸 3.word2vec延伸 4.lda主題延伸 乙個詞一列向量 hash演算...