神經網路語言模型

2021-07-29 11:55:32 字數 761 閱讀 3486

基於計數的n-gram語言模型:

出現的問題:

(1)資料稀疏,有些資料未出現過

(2)忽略語義的相關性,如「無聊」與「枯燥」雖然語義相似,但無法共享資訊。

詞語表示為:one-hot表示法。

基於分布式表示的n-gram語言模型:

出現的問題:

(1)詞向量:如何將每個詞對映到實數向量空間中的乙個點

(2)f函式的設計:設定什麼樣的神經網路結構模擬f函式

詞語表示為:基於連續空間的詞語表示。

詞表規模v和詞向量維度d如何確定:

–v的確定:1:訓練資料中所有詞;2:頻率高於某個閾值的所有詞;3:前v個頻率最高的詞。

–d的確定:超引數,人工設定,一般從幾十到幾百。

如何學習l:

–通常先隨機初始化,然後通過目標函式優化詞的向量表達(e.g.最大化語言模型似然度)。

語言模型:

前饋神經網路

問題:僅對小視窗的歷史資訊建模。例如5-gram語言模型,僅考慮前面4個詞的歷史資訊。

能否對所有的歷史資訊進行建模,即第t個詞的語言模型概率依賴於所有前t-1個詞。

語言模型:

迴圈神經網路

輸入:t-

1時刻的歷史與t時刻的輸入。

輸出:t時刻的歷史與下

一時刻t+1輸入yt的概率。

問題:

梯度消失和**:所以要有選擇地保留和遺忘

語言模型:

長短時記憶網路lstm

詞向量規模、詞向量分布

NNLM 神經網路語言模型

nnlm是從語言模型出發 即計算概率角度 構建神經網路針對目標函式對模型進行最優化,訓練的起點是使用神經網路去搭建語言模型實現詞的 任務,並且在優化過程後模型的副產品就是詞向量。進行神經網路模型的訓練時,目標是進行詞的概率 就是在詞環境下,下乙個該是什麼詞,目標函式如下式,通過對網路訓練一定程度後,...

NNLM 神經網路語言模型

簡介 nnlm是從語言模型出發 即計算概率角度 構建神經網路針對目標函式對模型進行最優化,訓練的起點是使用神經網路去搭建語言模型實現詞的 任務,並且在優化過程後模型的副產品就是詞向量。進行神經網路模型的訓練時,目標是進行詞的概率 就是在詞環境下,下乙個該是什麼詞,目標函式如下式,通過對網路訓練一定程...

神經網路模型

神經網路往往不需要人為的構造資料特徵,因為乙個神經元就可以看做是原始資料的不同特徵的組合,在神經元數目足夠大,層數足夠多的情況下,是很容易準確的進行分類的.神經網路是由具有適應性的簡單單元組成的廣泛並行互連的網路,它的組織能夠模擬生物神經系統對真實世界物體所做出的互動反應 神經元模型 m p神經元模...