文字表示(三)CBOW模型和Skip gram模型

2021-09-29 08:04:27 字數 995 閱讀 7316

在前面提到的神經網路語言模型、c&w模型,都沒有缺少隱藏層,而模型運算的高消耗都在輸入層到隱藏層的矩陣運算中,如果能減少這部分開銷,那麼模型會更加高效。而cbow模型和skip-gram模型就屬於這一類模型。

cbow模型的思想與c&w模型的思想類似:輸入上下文詞語,**中心目標詞。

與c&w模型以優化正樣本與負樣本之間的差異不同,cbow模型仍然是以**目標詞的概率為最終目標來建模的。cbow模型在網路結構上進行了兩點簡化:

通過上面兩點的優化,減少了矩陣運算,也較少了一次層之間的運算,使得模型的效率得到了提公升。

與cbow利用上下文來**中心目標詞不同,skip-gram反過來利用中心詞來**所有上下文詞彙:

skip-gram通過優化詞向量矩陣l來最大化所有上下文的對數似然:

還有負取樣(neg)技術可以用來優化模型的訓練效率。

以skip-gram為例,通過中心詞w

iw_i

wi​**上下文wc=

wi−c

...w

i−1w

i+1.

..wi

+cwc=w_...w_w_...w_

wc=wi−

c​..

.wi−

1​wi

+1​.

..wi

+c​中的任意詞w

cw_c

wc​,負取樣技術是為每個正樣本w

cw_c

wc​從某個概率分布pn(

w)p_n(w)

pn​(w)

中任意選擇個負樣本

\,然後最大化正樣本的似然,最小化負樣本的似然來進行優化(一般來說當k選為5的時候可以取得很好的效能)。

文字表示模型

具體來說,就是將整段文字以詞為單位切分開,然後每篇文章可以表示成乙個長向量,向量中的每一維表示乙個單詞,而該維對應的權重則反應了這個詞在原文章中的重要程度.常用tf idf計算權重,公式為 t f idf t,d tf t,d idf t tf idf t,d tf t,d idf t tf idf...

文字表示模型

機器學習中的方法 詞袋模型 n gram 模型 主題模型 詞袋模型 把文字拆成乙個乙個的單詞,如果乙個單詞在非常多的文章裡面都出現 那麼可能是乙個比較通用的詞彙,對於區分某篇文章特殊i吾義的貢獻較小 3,因此對權重做一定懲罰 n gram 模型 將文章進行單詞級別的劃分離時候並不是一種好的做法,比如...

文字表示 向量空間模型

概念 文字挖掘演算法不能直接在原始文字形式上處理。因此,在預處理階段,將文字轉化為更易計算機識別的資訊,即對文字進行形式化處理。模型 向量空間模型 概率模型 概念模型 向量空間模型 1 主要步驟 1 將文字的基本語言單位 字 詞 片語 短語 抽取,組成特徵項,用tn表示 2 將tn按在文字中的重要性...