fast align工具包使用踩坑記錄

2021-09-08 12:44:02 字數 652 閱讀 4548

乙個小小的任務用了兩天時間,踩了無數坑,記錄下來以作警示:

構建雙語詞典,用於對新語料的質量進行評分

由已有的質量較高的語料構建雙語詞典,在新的語料上計算每句翻譯對應成功的概率,有乙個閾值,得分較低的語料認為質量差

對已有的較高質量語料進行預處理-->雙語語料進行合併-->利用fast_align工具進行對齊-->構建字典

(1)一定要保證所有的句子都是和自己的翻譯語料對應在同一行上!!!否則對齊無意義

會導致源語料和目標語料沒對齊的情況:

莫名其妙的空行,可能出現在初始語料、處理過的語料、分詞後的語料中,有可能出現在各個環節,一定要注意

預處理階段,有時會對句子的長度進行檢查,對過短的句子進行刪除,然而,如果沒有吧對應的英語句子刪除,基本gg

(2)fast_align使用時對語料格式的要求,必須要有對齊,以 空格豎線豎線豎線空格   隔開( ||| )

(3)一定注意空行問題,只要有一句話中第乙個語料乙個是空,那麼全文都是空

(4)其他由於自己過於愚蠢犯下的錯

幾個指令:

檢視空行行號:grep -n '^$' aaa.txt

刪除空行(grep不好使不知道為什麼)

vim aaa.txt 

:g/^\s*$/d

fast_align的使用參考:

fast align工具包的使用

fast align是乙個優秀的快速詞對齊工具包,在github上有詳細的介紹 注意 使用前必須先進行分詞,特別是漢語語料。否則沒有實際意義 需要注意的是,這裡對檔案的格式有一定要求,每行是源語言句子及其目標語言翻譯,由帶有前導和尾隨空格 的三重管道符號分隔。例如3句德語 英語平行語料庫是 doch...

DBMS REPAIR 工具包的使用

dbms repair 工具包的使用 雖然dbms repair 是乙個程式包,它也是dba的乙個工具.通過執行dbms repair 包,oracle 給出關於損壞塊的詳細資訊,並告訴使用者如何修復他們 dbms repair 包記錄了關於損壞塊的全部詳細資訊,並在乙個稱為repair key的特...

拷貝工具包

常用工具包封裝.懶得引各種雜七八的包,輕量級包.cglib還是需要的 scope provided 1.0.0 copyutils beancopier封裝.提供簡單的單一複製與list複製.不支援自定義建構函式的類的複製.abc abc copyutil copysigle abc class o...