機器翻譯(待續)

2021-06-27 12:57:10 字數 790 閱讀 6605

機器翻譯 = 語言模型 + 翻譯模型

語言模型如:n元語言模型

n元語言模型

舉例,三元語言模型,乙個詞至於它相鄰的2個詞有關。

條件概率

p(我吃飯)表示詞語組合合理的概率。

p(我吃飯)= p(飯|我吃)*p(我吃)

p(我吃)    = p( 吃|我)*p(我)

得到:p(我吃飯)= p(飯|我吃)*p(吃|我)*p(我); 

基礎統計概率這樣得到:

[統計詞頻得到]

p(我)= c(我)/c(x) ;                      

p(吃|我)= c(我x)/ c(我吃)

p(飯|我吃)= c(我吃飯)/ c(我吃x)

在語音識別或者ocr中,如果識別三個字,前兩個識別為我吃,

單從第三個字的聲音來看,有40%的概率識別為「飯」,有50%的概率識別為「蛋」。

但是p(飯 | 我吃)的概率為50%,p(蛋|我吃)的概率為10%。

綜合考慮:

p(我吃飯)= p(飯)* p(飯 | 我吃)=40%*50%

p(我吃蛋)= p(蛋)* p(蛋|我吃)  =50%*10%

所以該字被翻譯成飯更合適一些。

1958 機器翻譯

time limit 1 sec memory limit 128 mb submit 55 solved 28 submit status web board 小晨的電腦上安裝了乙個機器翻譯軟體,他經常用這個軟體來翻譯英語文章。這個翻譯軟體的原理很簡單,它只是從頭到尾,依次將每個英文單詞用對應的中...

機器翻譯彙總

史丹福大學的nlp 機器翻譯的專案 tf中的nmt專案 最新進展 facebook ai research convolutional sequence to sequence learning 該文章所提出的模型 簡稱convs2s 不僅僅在翻譯任務上效果顯著,而且所需訓練時間也很短。實現 pyt...

模擬 機器翻譯

大概題意 有m個單元均可存放一單詞。但出現單元裡面沒有的新單詞時,查詢一次,如果當前記憶體中已存入的單詞數不超過m 1,自動儲存在後面 若記憶體中已存入m個單詞,清空最早儲存的單詞,來存放新單詞。長度為n個單詞。需要查詢多少次詞典?思路很簡單,先暴力搜尋,沒有就考慮加入單元,沒滿直接加後面,滿了從已...