詞向量簡介

2021-10-07 15:04:37 字數 491 閱讀 3918

1.什麼是詞向量?

每乙個詞典(裡面存著一堆單詞,例如)

用nn.embedding模組進行詞嵌入 輸出的就是對應的詞向量。

2.什麼是 nn.embedding ?

torch.nn.embedding理解

看這個解釋

3.如何訓練乙個詞向量?

skip-gram 模型

雖然這個任務並沒有什麼卵用,但它可以幫助我們訓練乙個非常好的詞向量。

模型的目標函式是:在給定中心詞的情況下 周圍單詞出現的概率希望其越大越好

然後它的概率密度是中心詞和輸出詞向量的乙個點積

點積的分數越大 兩個詞出現在一起的概率就越高

為什麼: 點積的分數越大 兩個詞出現在一起的概率就越高 ?

點積表示兩個向量之間的余弦距離 越大夾角越接近於0 兩個向量就越相似。

詞向量 如何評價詞向量的好壞

詞向量 詞嵌入或者稱為詞的分布式表示,區別於以往的獨熱表示,已經成為自然語言任務中的乙個重要工具,對於詞向量並沒有直接的方法可以評價其質量,下面介紹幾種間接的方法。對於詞向量的評價更多還是應該考慮對實際任務的收益,脫離的實際任務很難確定a模型就一定比b好,畢竟詞向量方法更多是一種工具。學生 上課 0...

詞向量與句向量概述

比較常見的詞向量表示方式 glove fasttext wordrank tfidf bow word2vec 詞向量一般看作是文件特徵,不同詞向量有不同用法,主要有四類詞向量 1.hash演算法及衍生 2.bow演算法延伸 3.word2vec延伸 4.lda主題延伸 乙個詞一列向量 hash演算...

構建詞向量(單向量版)

為了節省記憶體,詞向量的結果進行了惰性計算,返回的是乙個記憶體位址 如果想要使用,請list展開 共計三個結果,原順序 詞向量,單詞標籤,以及乙個排序結果 import re import numpy as np import matplotlib.pyplot as plt import scip...