Prolog統計機器翻譯PSTM 譯

2021-09-30 08:13:48 字數 2186 閱讀 9467

愛爾蘭(ireland),都柏林(dublin),布利燕 麥克艾琳尼(bryan mceleney

),psmt 是用prolog編寫的乙個不是很複雜的統計機器翻譯(statistical machine translation

)程式。作

為自由軟體在lesser gnu public licence

(lgpl)協議下可用。統計機器翻譯為例如google

所用,但

同時,這樣的系統自由使用時,對於乙個翻譯系統,開放、無中介(直接)還是需要的

。統計機器

翻譯的很多研究在各個大學還在進行。然而,迄今為止,僅僅乙個系統,moses

。系統需求(system requirements)

介紹(description)

如何使用(how to use)

將來的工作(future work)

鏈結(links)

系統需求(system requirements)

psmt是為swi prolog

(是自由的)寫的,因此只要在 swi prolog下應該可以執行,即gnu/linux、

macintosh 和 windows下的都可以,儘管它只在gnu/linux下進行了測試。

介紹(description)

psmt由3個主要部分組成。有乙個語言模型學習器,採用目標語言中的例句,學習基於trigrams的語

言模型。有個字典學習器,從詞的翻譯學習詞彙。最後,還有個搜尋程式,用於前兩個部分,把源語

句翻譯成目標語言。

語言模型學習器(language model learner)

語言模型學習器用標準技術目標語言例句中的三元組記錄。當沒有可利用的資料覆蓋更高層ngram,

即使用時,為「backoff」,三元和unigrams,也被記錄。

字典學習器(dictionary learner)

字典學習器使用自舉技術學習字典。給出部分地被學習的字典,一組例句,那些句子最可能的詞對被

選出記錄到字典。起初配對是隨機的,但最終的字典要設定正確的配對。

搜尋程式(search program)

搜尋程式用於目標語言中句子空間的定向(beam)搜尋。

如何使用系統(how to use the system)

在"main.pl"檔案中,有個謂詞可以呼叫學習模組。必須提供語言對的目錄名,訓練資料來自這個目錄。

在 "search_translation.pl" 檔案中,用load_da

ta把資料載入到記憶體,然後對一串詞使用搜尋謂詞。將

返回乙個n-best的定向搜尋。

用於對系統的快速測試。較大的12,000例子對的可以利用歐洲議會語料庫(european parliament corpus)

。這個較大的資料集合會產生乙個字典,有些叫人為難的是,搜尋演算法相當慢。就這份資料的語言模型

及字典的訓練,結果很慢,翻譯的也不好。

將來的工作(future work

訓練資料(training data)

系統可以是自由的,但是訓練材料需要的並行語料庫經常不是。目前,使用一套12,000 句子對的歐洲

議會語料庫來訓練字典。當前的系統沒有使用其他的額外的資料來訓練語言模型。opus

專案在尋求

從取自web的並行文字為對齊資料,作為開源的材料。psmt可以適用於處理opus資料。

效率(efficiency)

系統完全是用prolog編寫的。這對於系統的學習部分很好,但是,翻譯搜尋需要實時。將來搜尋演算法

用c++再移植是可能的。

命名實體(named entities)

還沒有提供對命名實體,如地名和人名的處理。

鏈結(links)

moses

系統目前仍在開發,希望他們會提供一系列完整的解碼器(搜尋演算法)、翻譯模型學習器(字

典學習器)和語言模型學習器。人們也對某些地方(opus

)自由的並行語料庫充滿希望。

在維基百科(wikipedia

)有個機器翻譯軟體的列表。

freshmeat 是個自由軟體索引。可以用來搜尋機器翻譯(machine translation

)專案。

類似地可以在sourceforg

執行搜尋。

機器翻譯(待續)

機器翻譯 語言模型 翻譯模型 語言模型如 n元語言模型 n元語言模型 舉例,三元語言模型,乙個詞至於它相鄰的2個詞有關。條件概率 p 我吃飯 表示詞語組合合理的概率。p 我吃飯 p 飯 我吃 p 我吃 p 我吃 p 吃 我 p 我 得到 p 我吃飯 p 飯 我吃 p 吃 我 p 我 基礎統計概率這樣...

1958 機器翻譯

time limit 1 sec memory limit 128 mb submit 55 solved 28 submit status web board 小晨的電腦上安裝了乙個機器翻譯軟體,他經常用這個軟體來翻譯英語文章。這個翻譯軟體的原理很簡單,它只是從頭到尾,依次將每個英文單詞用對應的中...

機器翻譯彙總

史丹福大學的nlp 機器翻譯的專案 tf中的nmt專案 最新進展 facebook ai research convolutional sequence to sequence learning 該文章所提出的模型 簡稱convs2s 不僅僅在翻譯任務上效果顯著,而且所需訓練時間也很短。實現 pyt...