第十講 迴圈神經網路 課時22 語言模型

2021-08-19 21:50:15 字數 778 閱讀 5739

language model即語言生成模型

character level language model 訓練過程

訓練過程的輸入時給定的,結果是乙個向量,進過softmax後就是為各個character的概率

測試過程     輸入是前乙個的輸出,輸出是由soft max 之後的概率分布 取樣得到的

如果想要用維基百科的英文語句訓練rnn,那麼將會無法收斂

可以生成詩歌,戲劇,數學證明,c語言**!

language modeling中,隱藏層向量的各個位置是由含義的!比如,或許第乙個單元就是檢測引號的

可以看到,這個單元的值在引號裡和引號外tanh啟用後的大小是不一樣的

第十講 迴圈神經網路 課時23

image captioning 是由cnn和rnn連線起來的網路 cnn處理圖形後不再產生乙個向量,而是對的每個位置各產生乙個向量,即輸入到rnn的是乙個向量組 hard attention 不可微分,需要高階bp演算法 增強學習中會介紹 將rnn單元縮寫 whh,whx兩個矩陣橫著擺放 ht 1...

sklearn第十八講 神經網路模型

多層感知器 multi layer perceptron,mlp 是乙個有監督學習演算法,它在乙個訓練集上學習乙個函式 f rm rof cdot mathbf m rightarrow mathbf o f r m ro m mm 是輸入維數,o oo 是輸出維數。給定乙個特徵集 x x 1,x2...

第六講 訓練神經網路上 課時15 批量歸一化

batch norm you want unit gaussian activations?just make them so 卷積神經網路由於需要保留空間資訊,對所有batch使用同樣的均值和方差。普通全連線網路各個batch使用各自的mean和variance gamma和beta是為了新增雜訊...