機器翻譯重要過程 4 估計概率構造短語翻譯表

經過第三步抽取短語後，獲得基於短語系統使用的翻譯短語對，而接下來的第四步就是短語翻譯表概率估計，它的作用是對翻譯短語對的正確性進行合理的評估。

在這裡，我們估計概率主要進行四個分數的計算，即雙向短語翻譯概率(正向:「源語言->目標語言」方向；反向:「目標語言->源語言」方向)、雙向詞彙化權重。首先，在上圖上方給定的含有詞對齊的句對中，通過上一講中的短語對抽取演算法抽取出14條與詞對齊保持一致的短語對，短語概率估計是在圖1結果的基礎上進行的(在進行概率估計時，短語對集合需要保留詞對齊資訊)。

1)雙向短語翻譯概率

「源語言->目標語言」短語翻譯概率

在公式(1)中，短語翻譯概率使用極大似然估計（maximum likelihood estimation）進行計算。其中count(f,e)

表示源言語與目標語言短語對(f,e)在大規模雙語平行句對中出現的頻次，分母表示以f作為源語言端短語的短語對在大規模雙語平行句對中出現的頻次。

「目標語言->源語言」短語翻譯概率

反向的短語翻譯概率與正向短語翻譯概率計算方式相同，在公式(2)中，count(e,f)表示目標語言與源語言短語對

(e,f)在大規模雙語平行句對中出現的頻次，分母表示以e作為目標語言端短語的短語對在大規模雙語平行句對中出現的頻次。

當使用的含有詞對齊資訊的雙語平行句對的規模比較大時，抽取出來的短語對集合檔案是非常大的，檔案大小甚至會達到幾個gb或幾十gb。所以，在使用公式(1)、公式(2)計算短語翻譯概率時，需要對檔案進行外部排序，以避免檔案內容全部載入至記憶體中。以公式(1)為例，如果對抽取出來的短語對集合檔案按照源語言端短語進行排序，這樣具有相同源語短語的短語對在檔案中將是依次出現的，此時僅需要同時讀入有限的短語對至記憶體中便可進行條件概率分布分數的計算。

在基於短語的統計機器翻譯系統中，經常僅僅使用雙向的短語翻譯概率。在這種情況下，資料的稀疏性或不可靠的資料來源可能會產生一些問題。如果短語e和f都只出現一次，那麼短語翻譯概率pr( e|f ) = pr(f |e ) = 1 ，這通常過高的估計了這種短語對的可靠性。為了判斷不經常出現的短語對是否可靠，通常做法是將短語對分解成詞的翻譯，這樣就可以檢查短語對的匹配程度，這種方法稱為詞彙化加權，該方法是一種基本的平滑方法。

2）雙向詞彙化翻譯概率

「源語言->目標語言」詞彙化加權

詞彙化加權（lexical weighting）特徵是將源語言端和目標語言端短語分解成詞彙，進而檢查詞彙間的匹配程度。即源語言端短語f中詞彙f1, f2, f3...與目標語言端短語e1, e2, e3...中詞彙的匹配程度。其中w(e|f)計算公式如下公式(4)所示，該公式可以從含有詞對齊的大規模平行句對中進行估計。在公式(4)中，count(f,e)表示的是詞對(f,e)在大規模雙語平行句對中出現的頻次，分母表示以f為源語言端詞彙的詞對在大規模語料中出現的頻次。

以最上面的圖中短語對「北京房價持續 **，beijing housing prices continued to rise」為例，公式(3)的具體計算方式如下所示：

公式(3)是乙個二重迴圈問題，在外層迴圈中，從目標語言端第乙個詞彙遍歷至最後乙個詞彙，將概率值進行連乘；在內層迴圈中，當前目標語言端詞彙為ei,計算不同fj翻譯為ei的概率和的均值。

「目標語言->源語言」詞彙化加權

「目標語言->源語言」方向詞彙化加權與公式(3)相似，具體如公式所示。

在公式(5)中，w(f|e)計算如公式(6)所示。其中公式(6)說明與公式(4)類似。

這裡依舊用短語對「北京房價持續 **，beijing housing prices continued to rise」為例，公式(5)的具體計算方式如下所示：

此處具體計算方式的解釋與上文相似，在此不再贅述。到這裡，短語翻譯表中最常使用的4個概率特徵及其計算方法介紹完畢。

機器翻譯重要過程 4 估計概率構造短語翻譯表

機器翻譯重要過程 1 資料預處理

機器翻譯（待續）

1958 機器翻譯

機器翻譯重要過程 4 估計概率構造短語翻譯表

機器翻譯重要過程 1 資料預處理

機器翻譯（待續）

1958 機器翻譯

相關推薦