通俗理解word2vec

2021-10-01 07:43:17 字數 492 閱讀 1114

參考

假設詞表中共有4萬個詞彙,現在知道第t個詞前面的n-1個詞,預估第t個詞:首先將n-1 依據詞表進行onehot編碼得到n-1個 $1*4萬$的稀疏向量(只有乙個位置為1,其餘為0), 然後為每乙個詞 隨機初始化乙個(1*k)維的詞向量c,這n-1個詞向量經過拼接/求和等操作得到乙個1*k維的向量,然後再經過softmax 計算出第t個位置是此表中每乙個詞的概率,選出最大的最為結果 與label 比較計算損失函式,通過訓練不斷降低損失函式 就可以得到由onehot-->詞向量 的 對映關係引數 和 上下文到單詞出現的條件概率引數, 這樣我們就可以依據對映關係引數得到每個詞對應的詞向量了。

ref:l2階段 l2專案階段/0.自然語言處理基礎%2b知識體系/nlp_basics/3.language_model.ipynb

還不太清楚 詞向量到最後輸出的具體操作 對比

l2階段 l2專案階段/0.自然語言處理基礎%2b知識體系/nlp_basics/3.language_model.ipynb

與word2vec 原來word2vec那麼簡單

說到word2vec,它可謂非結構化資料裡面的佼佼者,尤其是在推薦和nlp當中,足以體現它的優勢所在,並且多年一直備受工業界喜愛.那麼word2vec到底是怎麼個原理的,發現身邊總是有很多人問,確不能準確的說出為什麼是兩個矩陣,到底是怎麼自動反向傳播的,以及對於softmax之後那麼大的維度資料,是...

Word2vec淺顯的理解

本文主要讓你理解word2vec大概是個什麼事情 沒有具體原理等 先來說一下word2vec的產生,其實也和one hot編碼有關係,大家相信100維的向量最多可以表示多少個詞?one hot說,我能表示100個 但是你如果表示所有的單詞需要多少維啊.one hot就數不過來了,太多了 10的五次方...

word2vec的細節理解

n gram實際上是做了乙個n 1階的馬爾科夫假設。用的方法應該是貝葉斯的概率理論 word2vec是使用神經網路訓練的一套概率語言模型。收入的引數是詞向量。這裡的詞向量應該是屬於那種 onehot編碼 的詞向量吧?對於語料庫c裡的任意乙個詞w,將context w 取為前面n 1個詞 類似於n g...