聯想網路同傳系統 神經網路機器翻譯應用與挑戰(下)

2021-10-12 06:45:29 字數 2842 閱讀 1967

神經網路機器翻譯技術及應用(上)篇,我們為大家介紹了神經網路機器翻譯的基本原理和挑戰,(下)篇繼續為大家講述機器翻譯的應用與未來。

這只是機器翻譯應用的乙個縮影。隨著技術的發展和交流的需要,機器翻譯已經深切地融入我們的生活。

這個對聯跟以往常見的對聯不太一樣的地方,是我們上聯、下聯和橫批全部都是機器產生的。以前的對對子,我出乙個上聯,你對乙個下聯兒,但是春聯這個有意思,使用者提供乙個詞語,機器自動做出上下聯和橫批。 這裡左邊兩個是人名,第乙個是雲鵬,分別出現在上下聯中第4個字的位置。第二個是黃渤,兩個字分別出現在開頭。最後這個,上聯中前兩個字是乙個電影的名字。 可見機器翻譯有技術很多有趣的應用。

第乙個就是同聲傳譯,我把這四個字拆開來分析。『同』,就是表示時間延遲要短,為什麼同傳比交傳的工資高,就是因為它體現在這個『同』上,在我說話的同時,基本上翻譯結果就傳遞到觀眾那邊去了;『聲』用到的是語音技術,包括語音識別和合成;『傳』就是資訊傳遞要準確,翻譯的時候得把我原本的意思表達出來;『譯』就是翻譯技術,對應到機器翻譯。正好這四個字包含了兩個要求、兩個技術。

那麼挑戰在什麼地方?我們來看下圖中的這個句子,這是乙個語音識別的結果,那麼要把這樣乙個語音識別的結果去做同聲傳譯,用機器把它翻譯出來,有哪些問題呢?

第乙個問題就是有雜訊的問題。比如說有冗餘,我現在說話的時候可能就有冗餘,很多詞你是不需要翻出來的,或者是我的口語,或者是我有重複。另外乙個就是識別錯誤,這裡面『種莊稼』識別錯了,人可能糾錯能力會更強,能知道是種莊稼。但是這對機器很難,這種錯誤直接影響翻譯質量,所以就需要建立乙個更魯棒的語音模型和翻譯模型去做更好的容錯。

第二個難點是句讀、斷句和標點,剛才大家看了是沒有標點的(上圖),沒有標點的時候你不知道該在**翻,該在**停頓,所以我們應該給他加上標點,那這個問題可以看做乙個序列標註問題來解決它。

第三個難點是時延,時延其實跟準確率是乙個矛盾的概念,人們說話是有邏輯的,要想翻譯的準,我就可能得等到語義表達相對完整了再翻,但是那個時候很有可能就已經延遲了很長時間了,那這個時候那應該怎麼做?我們可以採取乙個適當的**技術,得到乙個翻譯質量和時延的平衡。 

出國面臨幾個痛點,一是上網,二是翻譯。我們這款翻譯機同時解決了這兩個問題,你可以用它上網,可以用它來翻譯,還可以用它來導覽。

從網上使用者公開的反饋來看,翻譯機在很多場景下對使用者幫助都非常大。比如說在乘車、在吃飯的時候,甚至是買藥。在買藥的例子中,這個人本身他是懂英文的,但是藥品的名字他不會,那他就用翻譯機把那個藥的名字翻譯出來。下面的例子,在酒店check in的時候,過安檢的時候,翻譯機都可以很好的幫助人們進行交流。

上圖中的右邊是乙個實物翻譯的功能,識別物品,並同時給出中英文翻譯,可以幫助我們進行雙語學習。

最後,我來總結一下,我畫了乙個機器翻譯的立方體,用三個維度去表徵現在機器翻譯的發展,試圖衡量一下現在機器翻譯和人的翻譯都處在乙個什麼水平。這三個維度,乙個是翻譯質量,乙個是領域,還有乙個是語言種類,我們最終的目標是要右上角這個頂端,我們在所有的語言、所有的領域上都達到乙個非常高的翻譯質量。

那麼人就是這個平面,我把它稱為專家平面,乙個人是某乙個領域的專家,可能是某一種語言的專家,比如說我是中英、化學領域的專家,那麼我就可以把化學領域、中英這兩種語言翻譯的很好。但是讓我翻譯中文到韓文,翻譯醫藥領域,我不懂這種語言、不是這個領域的專家,就翻譯的不太好。但是好在有別的專家,有的人可能懂好幾種語言,或者跨了好幾個領域,所以整個人類專家是分布在這個平面上的。

機器理論上來說,它可以做任何語言和任何領域的翻譯。但是它的翻譯質量顯然是不如人好,但是在某些特定的領域上我們可以進行一些領域的定製化或者領域的優化,它可以在某乙個領域上往前推進,所以機器翻譯最終的目標是達到終級目標,當然這個路非常漫長。

第乙個設想,『有一天,當你在人民大會堂的時候,你會發現無論哪個國家的人在台上講話,與會者都能從耳機裡聽到自己國家的語言。同時你會發現耳機裡翻譯的不是人,而是我們的萬能翻譯博士』。這其實就是自動同傳。

第二個設想,『此外,當你去國外旅行的時候,隨身可以帶乙個半導體和其他材料製成的小型萬能博士。當我們跟國外,外國朋友交談的時候,博士就立刻給你翻譯出各自國家的語言』。這就是我們剛才講的翻譯機。

五十多年前的預言,其實現在已經出現在我們身邊了。當然還有乙個預言,現在還沒有看到產品,就是翻譯印表機。比如說有一天在英國出版了一本新書,你把它放在這個印表機裡去,那麼出來的就是已經譯好的中文譯本、德文譯本、俄文譯本。

其實機器翻譯想做的事情,就是想讓人們在任何時間、任何地點,用任何語言可以進行自由的溝通。

從自聯想神經網路到深度神經網路

第六篇,簡要描述深度神經網路模型。自聯想神經網路是很古老的神經網路模型,簡單的說,它就是三層bp網路,只不過它的輸出等於輸入。很多時候我們並不要求輸出精確的等於輸入,而是允許一定的誤差存在。所以,我們說,輸出是對輸入的一種重構。其網路結構可以很簡單的表示如下 如果我們在上述網路中不使用sigmoid...

從自聯想神經網路到深度神經網路

第六篇,簡要描述深度神經網路模型。自聯想神經網路是很古老的神經網路模型,簡單的說,它就是三層bp網路,只不過它的輸出等於輸入。很多時候我們並不要求輸出精確的等於輸入,而是允許一定的誤差存在。所以,我們說,輸出是對輸入的一種重構。其網路結構可以很簡單的表示如下 如果我們在上述網路中不使用sigmoid...

自聯想神經網路 深度信念網路

自聯想神經網路 auto associative neural network 縮寫為aann 是1987年ballard提出的,其網路原型是一種具有對稱拓撲結構的五層前饋傳遞網路,aann 應用到資料檢驗問題時具有比較明顯的物理意義。是bp神經網路的一種特殊情形。其特點是有對稱拓撲結構,即輸出量等...