JFY系列機器翻譯系統

2021-04-13 08:20:27 字數 1631 閱讀 1159

機器翻譯的研究是理論方法和工程技術並舉的。要建立乙個機器翻譯系統,首先需要確立語言分析和生成的基本觀點,選擇適用的語法理論,設計系統的執行機制,組織析句時需要的各種引數,還要針對所有這些考慮提出在計算機上實現的演算法,並設計程式,除錯通過。這個過程幾乎涉及了計算語言學和自然語言處理的各個重要領域。我國機器翻譯的研究從一開始就面對印歐語言和漢語的巨大差異,所以一直重視語法和語義分析。jfy機器翻譯系統的研究思路屬於理性主義的路線,或者稱為基於規則的方法。主張對諸家語法理論各取其長,構造自己的語言分析方法。例如,用傳統語法、短語結構語法、轉換語法、從屬關係語法等思想分析句子的句法結構,用格語法、配價理論的方法分析句子的語義關係。同時, 在語言學的形式化( linguistic formali** )、 計算方法的形式化(computational formali**)和析句的機制(system mechani** )等方面結合工程的實際,做紮實的研究,以保證語言學上的設計得以實施。

經過多年的研究和開發,jfy系統在機器翻譯的理論、方法和技術等方面形成了自己的觀點,它們涉及:

1、機器翻譯系統的語言學基礎和演算法之間的關係。

2、基於詞專家的機器翻譯系統的設計原則和方法。

3、機器翻譯系統的開放性。

4、個性規則和共性規則的有機結合。

5、以謂語為軸心,句法和語義一體化的語言分析策略。

6、用於研製機器翻譯系統的開發工具。

7、適於自然語言處理的演算法。

例如下面關於句子結構的看法:

1)句子結構由成分之間的直接聯絡組成,表現為句法結構和語義結構兩個方面。同一句子的句法結構因語言不同而異,同一句子的語義結構對不同的語言則基本相同,因而語義結構是不同語言之間交際或翻譯的媒介和基礎。

2)成分之間的直接聯絡分為支配關係和附加關係兩種。支配關係是一種限定性的直接聯絡,可以預示成分之間的句法關係,構句時如果不滿足支配關係,將會造成不合語法的句子。附加關係是一種非限定性的直接聯絡,它不受其中心成分的限制,構句時不影響句子在語法上的合法性。

3)直接聯絡具有方向性。處於支配或中心地位的成分是直接聯絡的軸心,稱為上位成分;處於被支配或附加地位的成分稱為下位成分。

4)根據直接聯絡的有向性,可以劃分出成分之間的層級關係:上位成分、下位成分、同位成分和外位成分。乙個上位成分可以支配若干個下位成分;而乙個下位成分只能從屬於乙個上位成分。

5)謂語動詞是句子結構的主軸心,其他形式的謂詞是句子的次軸心。

在源文分析和譯文生成時,依據上面這些觀點分析句子的句法結構和語義結構。分析是按規則一步一步推導的。對帶有規律性的語言事實,用共性規則描述,放在語法庫里;對詞語的用法,用個性規則描述,放在詞庫里。在分析句子時把詞庫和語法配合起來用。這種作法,近年國外一些語法理論也有論述,例如以詞彙功能語法為代表的詞彙主義思想。jfy系統是在長期研究和實踐的積累中提出來的,理論和方法上有清楚的表述,工程上也有比較成熟的演算法和技術。這種方法在語言資訊處理界得到了認可,一些別的系統也陸續採用了這種處理方式。

jfy英漢系統由詞語規則庫(6萬多條),語法規則庫(1700多條),專業術語詞典(13部,110多萬條)和語義規則庫(150多條)組成。可以進行計算機、機械、冶金、電信等十幾個專業的科技文獻翻譯。這個系統曾經幾次獲獎。2023年獲得國家科技進步二等獎,2023年在新加坡資訊科學技術博覽會上獲銀獎,2023年獲得北京市科技進步三等獎。語言規則庫的工作獲得中國社會科學院青年優秀科研成果二等獎。 

機器翻譯(待續)

機器翻譯 語言模型 翻譯模型 語言模型如 n元語言模型 n元語言模型 舉例,三元語言模型,乙個詞至於它相鄰的2個詞有關。條件概率 p 我吃飯 表示詞語組合合理的概率。p 我吃飯 p 飯 我吃 p 我吃 p 我吃 p 吃 我 p 我 得到 p 我吃飯 p 飯 我吃 p 吃 我 p 我 基礎統計概率這樣...

1958 機器翻譯

time limit 1 sec memory limit 128 mb submit 55 solved 28 submit status web board 小晨的電腦上安裝了乙個機器翻譯軟體,他經常用這個軟體來翻譯英語文章。這個翻譯軟體的原理很簡單,它只是從頭到尾,依次將每個英文單詞用對應的中...

機器翻譯彙總

史丹福大學的nlp 機器翻譯的專案 tf中的nmt專案 最新進展 facebook ai research convolutional sequence to sequence learning 該文章所提出的模型 簡稱convs2s 不僅僅在翻譯任務上效果顯著,而且所需訓練時間也很短。實現 pyt...