word2vec缺少單詞怎麼辦？

2021-09-25 01:36:49 字數 483 閱讀 3634

unk技巧在訓練word2vec之前，預留乙個符號，把所有stopwords或者低頻詞都替換成unk，之後使用的時候，也要保留乙份詞表，對於不在word2vec詞表內的詞先替換為unk。

subword技巧這個技巧出自fasttext，簡而言之就是對oov詞進行分詞，分詞之後再查詢，找到的就保留，找不到的繼續分詞，直到最後分到字級別，肯定是可以找到的對應字向量的。

bpe技巧bpe(byte pair encoder)，位元組對編碼，也可以叫做digram coding雙字母組合編碼。bpe首先把乙個完整的句子分割為單個的字元，頻率最高的相連字元對合併以後加入到詞表中，直到達到目標詞表大小。對測試句子採用相同的subword分割方式。bpe分割的優勢是它可以較好的平衡詞表大小和需要用於句子編碼的token數量。bpe的缺點在於，它不能提供多種分割的概率。此外還有很多技巧啦，如word2vec的增量學習，這裡就不贅述了。

用隨機值或者0進行代替

**：word2vec缺少單詞怎麼辦？

與word2vec 原來word2vec那麼簡單

說到word2vec,它可謂非結構化資料裡面的佼佼者,尤其是在推薦和nlp當中,足以體現它的優勢所在,並且多年一直備受工業界喜愛.那麼word2vec到底是怎麼個原理的,發現身邊總是有很多人問,確不能準確的說出為什麼是兩個矩陣,到底是怎麼自動反向傳播的,以及對於softmax之後那麼大的維度資料,是...

word2vec學習參考

最近看nlp的東西比較多。就拿現在google 基於神經網路做的 word2vec 作為部落格的開始吧，今後會陸陸續續補充內容。基本是分4塊內容 1.神經網路語言模型 2.語言模型分層優化 3.word2vec 原理 4.google word2vec 看一點寫一點,先扔些參考資料鏈接上去。附上在研...

Word2Vec知識總結

word2vec是乙個產生詞向量的模型，是乙個雙層的神經網路非常善於找出詞彙的相似度，同時可用於處理之前的技術像one hot編碼和wordnet 處理不了的語義關係。它可以利用神經網路從大量的無標註的文字中提取有用資訊。我們也可以將它看成是乙個工具，它裡面包含了三種重要的模型 1 nnlm 神...