cs224n 筆記11 GRU和NMT的其他議題

2021-09-07 14:07:17 字數 2045 閱讀 2572

cs224n 第11講,複習了一些rnn知識,講到了gru以及機器翻譯

mt評價

關於gru的介紹之前也講過,簡單回顧一下

上圖展示的更新方式,綠色標記的是對當前資訊的計算,ht−

1h_ht−1

​是之前時刻的資訊,u

tu_t

ut​用來控制記住當前輸入資訊和之前時刻資訊的比例。

之前也說過,這種方式導致乙個問題,就是不能把之前時刻的資訊完全忘記,所以還需要乙個reset gate

樸素rnn的暫存器只能讀取或者更新整個暫存器,不夠靈活

而gru有門控單元,可以靈活的選擇讀取哪些暫存器

gru和lstm在本質上是很相似的,兩者最重要的公式十分類似,如圖中標記的公式。課程中提問了很多問題,我個人覺得,這兩種結構的基本思想是一致的,公式的細微不同之處造成的差異性很小,硬要解發布兩者的區別,只能從公式中強行解釋。

下面這張圖對lstm進行形象化的表示,圖中標記的地方算是最重要的地方,也就是加號的使用,這種思想解決了梯度的一系列問題。

lstm能夠更長時間的儲存資訊,如下圖演示

這裡提到的trick就是訓練多個模型,投票**,課程中說效果很好

bleu是現在常用的機器翻譯評價方法,其思想是通過比較標準譯文與翻譯譯文中n-gram的重疊比率來衡量翻譯質量

這裡不使用1-gram的原因是,很容易想到的作弊方式就是翻譯譯文輸出大量的the來提公升匹配率,比如參考翻譯有7個詞,候選翻譯輸出7個the,那麼這個翻譯的得分就是1,這顯然是不對的。

另外乙個問題是,當譯文太短時,n-gram方式也很容易得高分。比如參考譯文1是「the cat is on the mat」,參考譯文2是「there is a cat on the mat」,候選譯文輸出「the cat」,那麼得分又是1(1/2+1/2)。所以還需要有效的懲罰措施,對短譯文進行懲罰。bp當候選譯文比參考譯文短時小於1,進行懲罰。

使用多篇參考譯文,能夠保證黨翻譯的譯文很好時,總能和某篇譯文相似度高。ibm建議的數量是4。

bleu的打分情況和人類打分幾乎是一致的(線性相關)

這裡說的大詞表問題就是在**乙個單詞時,需要做softmax,當詞表過大時,softmax的運算代價就會很高。

manning提到了幾個不太好的方法,比如減小詞表,建立樹形詞表等。

一種比較好的方法是每次訓練都是用詞彙表的子集。

training

讓用詞相似的文章進入同一子集

testing

測試的時候先雷打不動將前k個最常使用的單詞加入備選詞表,然後將原文中每個單詞可能的前k′個翻譯加進去。最後在備選詞表上softmax。

後面還有些內容沒有講完,估計下節課manning會補上吧。。。

CS224n筆記一 開端

自然語言處理的目標是讓計算機處理或者 理解 自然語言,以完成有意義的任務,如qa等。形態學 morphological analysis 或稱詞法或者詞彙形態學。其研究詞的內部結構,包括屈折變化和構詞法兩個部分。句法分析 syntactic analysis 和語義分析 semantic inter...

CS224N 語言模型介紹

語言模型實現 語言模型是指根據給定序列 下乙個單詞的任務,其形式化表達為 給定單詞序列x 1 x 2 x t 然後 單詞x t 1 的概率分布 語言模型的另一種定義是給給定文字序列分配概率 這個概率代表了該文字序列出現的可能性大小 例如,給定一段文字x 1 x 2 x t 那麼這段文字出現的概率為 ...

CS224n學習筆記 Lecture1 2

開始的這部分主要是對dl4nlp的乙個簡介。個人理解,dl4nlp中,所有層級都是以向量的形式進行處理,用向量表示單詞 用向量表示句子等。向量是最靈活的形式,維度自由,可組成矩陣,可組成高維的tensor等。進行nlp等後續任務,首先需要輸入。輸入 主要有兩個,乙個是來自語音speech,乙個是來自...