面向機器翻譯的全文檢索系統

2021-03-31 19:23:12 字數 1332 閱讀 6561

需要檢索的篇章,先分解成段落,並分別按段落精檢方法進行檢索。段落精檢允許一定

的模糊性。當兩個段落的結構特徵基本匹配後,進一步劃分句子,通過對句子進行相似

度的計算,最後判斷段落是否匹配。系統運用了動態規劃的方法計算句子的相似度。

把待翻譯句子中的單詞列為i-j平面的i軸上,例項句子中的單詞列為j軸上,其中,格點

(i,j)的值為詞i與詞j間的相似度。兩條語句間的相似度是一條原點到(i,j)的路徑,語

句相似度的值為路徑上所經過格點的匹配度之和。那麼,句子間的相似度計算就轉化為

在i-j平面中尋找一條最佳路徑,使兩語句的相似度最大。

為追求速度和準確性,目前的相似性查詢不做同義詞擴充套件等操作,狀態k結點處的詞間相

似度d(ik,jk)可簡單定義為:如i,j相同,為1,否則為0。狀態轉移方程為:(ik,jk)

=uk(ik-1,jk-1)。

並且相似語句匹配的路徑具有一定的限制條件:(1)單調性限制,要求路徑必須是從起點

向右或向上延伸的。(2) 全域性路徑限制,傾斜路徑優於豎直或水平路徑。 (3)區域性路徑

限制,(ik,jk)的後序結點只計算(ik+1,jk)、( ik,jk+1)、(ik+1,jk+1) 三種情形,並

不會出現直角。

原點到(i,j)全路徑的相似度s為:

動態規劃的階段最優遞推公式為:

語句間的相似度定義為:

其中,n為待翻譯句子中的詞數。取相似度最大的語句作為檢索結果,若不存在相似度大

於閥值的語句,返回查詢失敗標誌。

這樣我們就可以根據各個句子的相關度定義段落的相關度,從而檢索出所需段落,甚至

篇章。

3.3 縮撿中相關性效能分析

首先通過例子介紹加權檢索的原理。

例如:查詢自然語言處理中的網路機器翻譯方面的文獻,用加權檢索法提問式如下:

自然語言處理(1)機器翻譯(3)網路(2)

如文獻中同時包含三個詞,則此文獻的權值為1 + 3 + 2 = 6;如文獻中包含自然語言處

理、機器翻譯,則此文獻的權值為1 + 3 = 4...以此類推。如設定下限閥值為4 的話,

同時包含三個詞,或同時包含兩個詞(除自然語言處理、網路的組合外)都為命中的情況

。 下面我們與向量空間模型做個對比。

在向量空間模型中,將文獻和提問都表示成向量。假設文獻集合共有m個不同的標引詞t

1,t2, …,tm,則集合中的每篇文獻都可以用這m個標引詞中的若干個予以表示。任一文

獻可表示為標引詞向量空間中的乙個向量:

d = (t11, t12, ......, t1m)

同樣地,乙個提問q也可以表示為

面向機器翻譯的全文檢索系統

摘 要 本文介紹了面向機器翻譯的全文檢索系統的設計和實現,該系統在實現倒排檔存 儲結構和布林邏輯檢索 位置檢索 檢索相關性排序等普通全文檢索系統功能的基礎上 提供面向機器翻譯的多層次檢索和跨語言檢索功能。針對機器翻譯中篇章 段落模糊 檢索的難題,本文提出了縮檢 精檢的方法,並通過對文件的特徵分析以及...

什麼是全文檢索與全文檢索系統

全文檢索是指計算機索引程式通過掃瞄文章中的每乙個詞,對每乙個詞建立乙個索引,指明該詞在文章中出現的次數和位置,當使用者查詢時,檢索程式就根據事先建立的索引進行查詢,並將查詢的結果反饋給使用者的檢索方式。這個過程類似於通過字典中的檢索字表查字的過程。全文檢索的方法主要分為按字檢索和按詞檢索兩種。按字檢...

JFY系列機器翻譯系統

機器翻譯的研究是理論方法和工程技術並舉的。要建立乙個機器翻譯系統,首先需要確立語言分析和生成的基本觀點,選擇適用的語法理論,設計系統的執行機制,組織析句時需要的各種引數,還要針對所有這些考慮提出在計算機上實現的演算法,並設計程式,除錯通過。這個過程幾乎涉及了計算語言學和自然語言處理的各個重要領域。我...