Google機器翻譯分析

由 www.lucene.com.cn 提供史洪柏葛帥

3． generalized ebmt的介紹

gereralization：將語句中的某些詞語或短語用更一般的概念來表示。可以很大程度上減少對例項庫規模的需求。

泛化採用的基本方法：

-通過對大規模語料的訓練進行word cluster 來自動的對例項進行一般化

-利用現有的語義詞典計算詞語的上下位來自動的對例項進行一般化

舉例說明：

- john hancock was in philadelphia on july 4

- john hancock war am 4.juli in philadelphia.

- was in on

- war am in

cmu 的tokenization: 利用乙個特殊的詞表來查詢，並且用了一些簡單的規則，根據他們的研究，如果雙語語料庫的規模能夠達到百萬數量對語句，對非限定領域的輸入就能夠達到比較好的覆蓋。基於語法樹庫進行的工作，半自動標註詞類。

4．研究內容

本文通過漢語和英語的語義詞典來計算詞的語義距離，進而計算語句的結構相似度，然後將相似語句的共同部分提取出來做為模板的候選元素。漢語和英語的語義詞典分別是基於 wordnet和同義詞詞林。由於對自然語言的完全分析尚未達到很好的程度，本文試圖不對語言進行完全分析，直接從語料庫獲取翻譯模板，所用的方法基本和語言無關。

4.1詞的語義距離的計算和上位詞的獲取

採用語義詞典，根據詞的上下位來確定詞的語義距離英語採用漢語採用《同義詞詞林》

4.2語句結構相似度的計算

假設語句a和語句b分別有m和n 個詞，他們的詞相似度矩陣為：

dij為語句a的第i個詞和語句b的第j個詞的語義距離，根據此相似矩陣，我們可以計算兩個語句之間的相似度並且能夠提取他們的共同部分作為模板的侯選元素。計算方法如下(採用動態規劃)

4.3模板的提取

乙個翻譯模板對應於乙個分句或是短語，目前並不考慮模板的巢狀問題。計算得到語句相似度之後，將對相似度有貢獻的「詞對」作為兩個語句的相似

部分提取出來並結合語義詞典得到template candidates

將兩個語句的相似的部分提取出之後，取得他們的上位詞，作為最初的模板

5．研究的意義

在保證翻譯準確率的前提下提高了系統的匹配率，使更多的相似語句可以匹配。翻譯速度有了很大程度的提高，同時翻譯結果的重複利用性良好，模板的可讀性較好。例項庫的組織更加有條理，層次清晰，有利於擴充和檢索。

Google機器翻譯分析

Google神經機器翻譯系統要點備忘

機器翻譯（待續）

1958 機器翻譯

Google機器翻譯分析

Google神經機器翻譯系統 要點備忘

機器翻譯（待續）

1958 機器翻譯

相關推薦

Google神經機器翻譯系統要點備忘