面向機器翻譯的全文檢索系統

2021-03-31 21:57:07 字數 4658 閱讀 3655

摘 要:本文介紹了面向機器翻譯的全文檢索系統的設計和實現,該系統在實現倒排檔存

儲結構和布林邏輯檢索、位置檢索、檢索相關性排序等普通全文檢索系統功能的基礎上

,提供面向機器翻譯的多層次檢索和跨語言檢索功能。針對機器翻譯中篇章、段落模糊

檢索的難題,本文提出了縮檢、精檢的方法,並通過對文件的特徵分析以及選擇適當的

檢索表示式模型,解決了面向機器翻譯檢索中相關性判別的問題,在句子相似度的計算

中運用了動態規劃的思想。

一、 引言

隨著人們對語言學認識的深入和計算機技術的發展,機器翻譯技術得到迅速發展,湧現

出了一批實用化的機器翻譯系統,特別是inter*** 的發展使得網路機器翻譯系統應雲而

生。鑑於機器翻譯是乙個涉及語言學、計算數學、計算機技術、認知科學等多個領域綜

合性的交叉科學,由於語言本身固有的複雜性和受目前人工智慧發展水平的限制,機器

翻譯譯文質量仍然與客觀需要有一定的差距,往往需要人工進行譯後編輯,且翻譯速度

因需用詞典、規則做大量的語法、語義分析而與使用者的需求也存在差距,因而提高機器

翻譯譯文正確率的工作是極其艱鉅的。

因有重複翻譯的需求,尤其是inter***網上的網頁有很大的繼承性,因此,我們提出存

儲以前經過人工編輯或質量高的翻譯結果,利用現有的翻譯經驗,不斷提高機器翻譯的

速度和質量的思想。作者根據一般全文檢索系統的設計原理和規則,針對機器翻譯系統

的特點,設計並實現了面向機器翻譯的全文檢索系統。該全文檢索系統不僅具有改進的

全文檢索功能,而且提供面向機器翻譯的多層次檢索和跨語言檢索功能。

二、功能和總體結構

本系統同時提供面向使用者和面向機器翻譯的資訊檢索功能。面向使用者的檢索提供普通全

文檢索系統的基本功能,使使用者能充分利用已收集的雙語資訊,支援跨語言檢索。面向

機器翻譯的檢索輔助機器翻譯系統進行翻譯,如果使用者對機器翻譯系統已翻譯過的相似

文件(或段落)提出翻譯需求,系統可以直接呼叫已儲存在雙語資訊庫中的譯文資訊,從

而提高翻譯系統處理速度;此外,由於儲存在資訊庫中的譯文均已經過不同程度的譯後

編輯,因此,提供給使用者的翻譯結果就更準確。

該系統設計和實現基於以下主要原則:(1) 繼承普通全文檢索系統的功能;在其基礎上

,提供相關反饋的機制,增加機器翻譯系統使用的檢索功能;(2) 模型具有開放性,支

持多語種的擴充;(3) 系統易於維護,保持中英文索引結構的一致性;(4) 滿足網路環

境下翻譯、查詢處理實時性高、資訊量大的要求。

系統在倒排檔的基礎上,採用符合使用者查詢習慣的布林檢索模式,為使用者檢索和機器翻

譯的檢索提供快速和準確的檢索結果。系統結構如下圖所示:

各模組功能:

* 資訊文件的預處理模組

純文字文件,使使用者能夠檢索到以不同格式存在的文字資訊。

* 索引模組

索引模組對文件庫中的文件進行分析,建立各種索引資訊為檢索提供基礎和保證。主要

內容包括:建立記錄文件特徵資訊的倒排檔;建立雙語文件及其內部段落之間的對照關

系;進行文字分析,提取文件外部特徵等。

* 面向使用者的檢索模組

根據使用者的查詢要求,讀取文件資訊的特徵記錄,查到使用者所需資訊。主要內容包括:

檢索表示式的處理、檢索處理、檢索擴充套件處理、相關性排序、相關反饋等。

面向使用者的檢索同時也是面向機器翻譯檢索的基礎。系統首先對輸入的檢索表示式進行

分析並查錯,然後分別按單個可檢詞進行檢索,經過對檢索表示式中可檢詞的組合運算

,最後得到檢索結果並排序輸出。

* 機器翻譯檢索模組

針對機器翻譯系統對篇章、段落的查詢需求,根據系統模糊度的要求,在雙語資訊庫中

檢索出相同的篇章段落及其譯文,或者給出雙語庫中未存該查詢物件的結論。這是本系

統的核心模組。

三、 面向機器翻譯的檢索

篇章、段落精確匹配的概率較少,也容易實現。而如何根據機器翻譯的需求,快速、準

確查詢「相似」的篇章、段落是整個檢索的重點和關鍵問題。本文採用逐步求精的方法

實現。對於篇章檢索,首先按外部特徵進行匹配,如存在,則對匹配結果直接進行精檢

。若不存在,提取其主題詞(集合)組配成檢索表示式進行縮檢。然後在縮減結果中進

行支援模糊匹配的精檢,最終獲取檢索結果。對於段落檢索,直接按縮檢、精檢的方式

進行處理。

3.1 縮檢

縮檢是指首先抽取代表要檢索篇章、段落特徵的主題詞(集合),然後,根據這些主題

詞組成的檢索式在倒排檔中查詢相關篇章、段落,迅速縮小精檢範圍的處理過程。

3.1.1 主題詞提取

由於網路資訊檢索具有較高的實時性要求,且此處的主題詞提取是為了構造檢索式,加

快檢索速度,所以,對主題詞的抽取不可能進行詳盡的語法語義分析,也不適於用逆文

獻詞頻法,所以本系統採用下述基於統計的方法實現。確定主題詞時系統優先考慮以下

引詞權值大。

主題詞加權函式的計算公式為:

其中,pw為累計位置權重;freg為該詞的詞頻;len為詞長,lmin是詞長下限;c為一常

數,對於中文詞,長詞的專指性較高, c可取大些,對於英文詞,差距不如中文明顯,

c可小些。

中出現一次時,pw = pw + 1/句中總詞數。

3.1.2 相關性檢索

由於本全文檢索系統支援檢索詞在同一段落中的查詢,因此段落檢索式的構造相對簡單

,在提取出的主題詞之間加上同段位置運算子即可,然後用此檢索式在倒排檔中查詢相

關段落。

篇章的檢索是一種相關性判別,目前,在相關性判斷方面取得較好成績的系統多採用向

量空間模型,如salton領導下的**art實驗系統,但這種檢索模型還沒能在實用系統中運

用。有的系統採用的辦法是,把所有提取出的主題詞用或運算連線,在倒排檔中檢索以

縮小一定的範圍,再在此範圍內對所有文件生成空間向量以確定與查詢文件的相關程度

。不過,本人認為這種方法效率不高,響應時間太長,不適合我們系統實時的要求。

本系統的篇章檢索表示式採用加權檢索提問式,避免布林檢索模型不能表達特徵詞的重

要程度的弊端,又易於在已選模型上實現。其方法是通過在檢索式中提供主題詞的權值

,根據檢索文件與查詢的相關程度是否超過閥值來確定該文件是否符合檢索條件。

度量相似性公式:

檔數,fdt為詞出現頻率。是文件的長度,通過計算標引詞的數量得到。

3.2 精檢

精檢是指在縮檢得到的候選文件集合中進一步匹配並得到最終檢索結果的過程。

系統優先進行重要特徵的比較,以盡早排除不可能匹配的文件,縮小後期處理的範圍。

需要檢索的篇章,先分解成段落,並分別按段落精檢方法進行檢索。段落精檢允許一定

的模糊性。當兩個段落的結構特徵基本匹配後,進一步劃分句子,通過對句子進行相似

度的計算,最後判斷段落是否匹配。系統運用了動態規劃的方法計算句子的相似度。

把待翻譯句子中的單詞列為i-j平面的i軸上,例項句子中的單詞列為j軸上,其中,格點

(i,j)的值為詞i與詞j間的相似度。兩條語句間的相似度是一條原點到(i,j)的路徑,語

句相似度的值為路徑上所經過格點的匹配度之和。那麼,句子間的相似度計算就轉化為

在i-j平面中尋找一條最佳路徑,使兩語句的相似度最大。

為追求速度和準確性,目前的相似性查詢不做同義詞擴充套件等操作,狀態k結點處的詞間相

似度d(ik,jk)可簡單定義為:如i,j相同,為1,否則為0。狀態轉移方程為:(ik,jk)

=uk(ik-1,jk-1)。

並且相似語句匹配的路徑具有一定的限制條件:(1)單調性限制,要求路徑必須是從起點

向右或向上延伸的。(2) 全域性路徑限制,傾斜路徑優於豎直或水平路徑。 (3)區域性路徑

限制,(ik,jk)的後序結點只計算(ik+1,jk)、( ik,jk+1)、(ik+1,jk+1) 三種情形,並

不會出現直角。

原點到(i,j)全路徑的相似度s為:

動態規劃的階段最優遞推公式為:

語句間的相似度定義為:

其中,n為待翻譯句子中的詞數。取相似度最大的語句作為檢索結果,若不存在相似度大

於閥值的語句,返回查詢失敗標誌。

這樣我們就可以根據各個句子的相關度定義段落的相關度,從而檢索出所需段落,甚至

篇章。

3.3 縮撿中相關性效能分析

首先通過例子介紹加權檢索的原理。

例如:查詢自然語言處理中的網路機器翻譯方面的文獻,用加權檢索法提問式如下:

自然語言處理(1)機器翻譯(3)網路(2)

如文獻中同時包含三個詞,則此文獻的權值為1 + 3 + 2 = 6;如文獻中包含自然語言處

理、機器翻譯,則此文獻的權值為1 + 3 = 4...以此類推。如設定下限閥值為4 的話,

同時包含三個詞,或同時包含兩個詞(除自然語言處理、網路的組合外)都為命中的情況

。 下面我們與向量空間模型做個對比。

在向量空間模型中,將文獻和提問都表示成向量。假設文獻集合共有m個不同的標引詞t

1,t2, …,tm,則集合中的每篇文獻都可以用這m個標引詞中的若干個予以表示。任一文

獻可表示為標引詞向量空間中的乙個向量:

d = (t11, t12, ......, t1m)

同樣地,乙個提問q也可以表示為

面向機器翻譯的全文檢索系統

需要檢索的篇章,先分解成段落,並分別按段落精檢方法進行檢索。段落精檢允許一定 的模糊性。當兩個段落的結構特徵基本匹配後,進一步劃分句子,通過對句子進行相似 度的計算,最後判斷段落是否匹配。系統運用了動態規劃的方法計算句子的相似度。把待翻譯句子中的單詞列為i j平面的i軸上,例項句子中的單詞列為j軸上...

什麼是全文檢索與全文檢索系統

全文檢索是指計算機索引程式通過掃瞄文章中的每乙個詞,對每乙個詞建立乙個索引,指明該詞在文章中出現的次數和位置,當使用者查詢時,檢索程式就根據事先建立的索引進行查詢,並將查詢的結果反饋給使用者的檢索方式。這個過程類似於通過字典中的檢索字表查字的過程。全文檢索的方法主要分為按字檢索和按詞檢索兩種。按字檢...

JFY系列機器翻譯系統

機器翻譯的研究是理論方法和工程技術並舉的。要建立乙個機器翻譯系統,首先需要確立語言分析和生成的基本觀點,選擇適用的語法理論,設計系統的執行機制,組織析句時需要的各種引數,還要針對所有這些考慮提出在計算機上實現的演算法,並設計程式,除錯通過。這個過程幾乎涉及了計算語言學和自然語言處理的各個重要領域。我...