機器翻譯及相關技術筆記

2021-10-02 23:56:20 字數 767 閱讀 3111

一、機器翻譯和資料集

機器翻譯(mt):將一段文字從一種語言自動翻譯為另一種語言,用神經網路解決這個問題通常稱為神經機器翻譯(nmt)。 主要特徵:輸出是單詞序列而不是單個單詞。 輸出序列的長度可能與源序列的長度不同。

字元在計算機裡是以編碼的形式存在,我們通常所用的空格是 \x20 ,是在標準ascii可見字元 0x20~0x7e 範圍內。 而 \xa0 屬於 latin1 (iso/iec_8859-1)中的擴充套件字符集字元,代表不間斷空白符nbsp(non-breaking space),超出gbk編碼範圍,是需要去除的特殊字元。再資料預處理的過程中,我們首先需要對資料進行清洗。

二、注意力機制

在「編碼器—解碼器(seq2seq)」⼀節⾥,解碼器在各個時間步依賴相同的背景變數(context vector)來獲取輸⼊序列資訊。當編碼器為迴圈神經⽹絡時,背景變數來⾃它最終時間步的隱藏狀態。將源序列輸入資訊以迴圈單位狀態編碼,然後將其傳遞給解碼器以生成目標序列。然而這種結構存在著問題,尤其是rnn機制實際中存在長程梯度消失的問題,對於較長的句子,我們很難寄希望於將輸入的序列轉化為定長的向量而儲存所有的有效資訊,所以隨著所需翻譯句子的長度的增加,這種結構的效果會顯著下降。

與此同時,解碼的目標詞語可能只與原輸入的部分詞語有關,而並不是與所有的輸入有關。例如,當把「hello world」翻譯成「bonjour le monde」時,「hello」對映成「bonjour」,「world」對映成「monde」。在seq2seq模型中,解碼器只能隱式地從編碼器的最終狀態中選擇相應的資訊。然而,注意力機制可以將這種選擇過程顯式地建模。

機器翻譯及相關技術等打卡

一 機器翻譯及相關技術 1.機器翻譯 mt 將一段文字從一種語言自動翻譯為另一種語言,用神經網路解決這個問題通常稱為神經機器翻譯 nmt 主要特徵 輸出是單詞序列而不是單個單詞。輸出序列的長度可能與源序列的長度不同。all 函式 用於判斷給定的可迭代引數中所有元素是否都為true,返回 iterab...

機器翻譯(待續)

機器翻譯 語言模型 翻譯模型 語言模型如 n元語言模型 n元語言模型 舉例,三元語言模型,乙個詞至於它相鄰的2個詞有關。條件概率 p 我吃飯 表示詞語組合合理的概率。p 我吃飯 p 飯 我吃 p 我吃 p 我吃 p 吃 我 p 我 得到 p 我吃飯 p 飯 我吃 p 吃 我 p 我 基礎統計概率這樣...

1958 機器翻譯

time limit 1 sec memory limit 128 mb submit 55 solved 28 submit status web board 小晨的電腦上安裝了乙個機器翻譯軟體,他經常用這個軟體來翻譯英語文章。這個翻譯軟體的原理很簡單,它只是從頭到尾,依次將每個英文單詞用對應的中...