機器翻譯的前世今生（2）

在「機器翻譯的前世今生（1）」中我們提到，基於例項的機器翻譯（embt）給機器翻譯界帶來了新的希望：我們將不再需要自己構建規則，我們只需要將已有的翻譯交給機器。

然而，在革命的第一步邁出短短5年後，統計機器翻譯（smt）出現了。

90年代早期，ibm研究中心研發出一種機器翻譯系統，它在大量雙語平行語料基礎上，完成該語對的翻譯過程。（注：平行語料：由原文文字及其平行對應的譯文文字構成的語料）

該過程不依靠規則，不依靠詞典，機器僅依靠既有的平行語料資料，從雙語平行語料中分析出詞語的共現情況，發掘出對應的翻譯關係，因此該機器翻譯技術被稱為統計機器翻譯（smt）。

這種新型翻譯技術的翻譯過程就好比查詞典：由語料構建成的語料庫可以被視為一本「詞典」，「詞典」裡乙個詞會擁有多個譯文選擇，smt建立乙個模型來算出各個選擇與原文詞配對的概率，並優先考慮使用概率最大的詞。再將剛剛選出的概率最大的詞與原文對應詞進行一一對齊，經過除錯句子中語法、詞與詞之間的順序等步驟，獲得最終翻譯結果。

圖中源語言為英語，目標語言為德語

如上圖所示：通過模型計算出 the 對應 das 的概率為0.58，對應 haus 的概率為0.02，所以我們可以初步確定 the 對應的譯文為 das。其他單詞以此類推。

對齊、除錯的過程

與「查詞典」的過程不太一樣的是，smt不僅可以把單詞作為子組來處理文字，還可以基於短語，基於語法和基於分層短語。

神經網路技術的應用推動了深度學習技術的發展。2023年蒙特婁大學的kyunghyun cho、yoshua bengio等人發布了一篇關於在機器翻譯中使用神經網路的**，該**並未引發學界廣泛關注，但google注意到了。2023年11月，google推出神經機器翻譯（nmt）系統。

深度學習：深度學習是機器學習中一種基於對資料進行表徵學習的演算法；表徵學習：可以被理解為將原始資料轉換成為能夠被機器學習來有效開發的一種形式——它避免了手動提取特徵的麻煩，允許計算機學習使用特徵的同時，也學習如何提取特徵：學習如何學習。

nmt模型在smt模型的基礎上進行優化。在 nmt中，翻譯過程可以用乙個「編碼→解碼」的模型來實現。nmt通過使用編碼器將文字轉化為固定的向量，從而將源語言表示為連續空間的形式，再使用解碼器把向量逐步解碼。

這個過程好比為小女孩編辮子：「原始輸入」是她烏黑順滑的長髮，在經過「編碼器」這雙巧手的「編織」後變成辮子——「向量」，另一雙巧手「解碼器」把「向量」辮子解開，就得到了波浪式的捲髮——「翻譯結果」。

向量的表示方法可以讓語義相似的詞在語義空間中有相似的表示，從而使語義相似的句子被對映在同乙個空間裡。

以下圖為例：

tom is loved by lily 和 lily loves tom 這兩個句子的語序和單詞組成是不一樣的，但是它們的語義相似，所以被對映在同乙個空間。

而 lily loves tom 和 tom loves lily 的單詞組成是一樣的，但是它們的語序差異帶來了較大的語義差別，因此它們被投射到不同的空間。

不同於線性的smt模型，nmt使用連續空間表示語言，從而增強語義相似的文字之間的關聯性，改善了smt模型中資料稀疏性的問題，提公升翻譯質量。nmt在短短的兩三年內便取代了smt成為商業機翻系統的主流模型。

機器翻譯技術半個多世紀的發展趨勢如下：

比較粗淺地說，「從離散表示到稠密的向量化表示」便是指我們使用更多的特徵去標記乙個向量。

機器翻譯的發展是乙個曲折中上公升的過程：初創->發展->低迷->復甦->熱潮->...，未來也有可能再低迷再熱潮，但每一次的發展本質上都是在深化。

從古希臘的思想起源至今，機器翻譯技術已取得極大進展，但現今機器翻譯仍未徹底實現無障礙溝通及順暢無礙地進行語義上的理解和交流。顯然，距離我們最終希望機器翻譯達到的效果，還有很長的路要走。

重建「巴別塔」的工程仍在繼續，通天塔的重現，我們拭目以待。

機器翻譯的前世今生（2）

機器翻譯（待續）

1958 機器翻譯

機器翻譯彙總

機器翻譯的前世今生（2）

機器翻譯（待續）

1958 機器翻譯

機器翻譯彙總

相關推薦