基於維基百科構建平行語料庫

2021-09-18 06:10:09 字數 478 閱讀 1105

本文輔助有需求人士建立平行語料庫。

工具github鏈結

第一步:從」 上檢視自己選的小語種的639-1碼

ps:特定於語言的過濾

如果該對中的一種語言使用特定的unicode範圍,則可以輕鬆過濾掉不包含此類字元的行。filters/目錄中包含一些指令碼的示例過濾器。

例如,以下內容將篩選出不包含至少乙個perso-arabic字元的對:

./build-corpus.sh en arwiki-20140831 | ./filters/filter-perso-arabic.pl > titles.txt

最後,如果titles.txt是空的,將scripts中的extract.pl和utf8-normalize.s**件用記事本開啟

將所有的iconv -f utf8 -t utf8 -c換成iconv -f utf-8 -t utf-8 -c即可。

維基百科簡體中文語料的獲取

使用維基百科做訓練語料有很多好處 到此為止,已經完成了大部分繁簡轉換工作。實際上,維基百科使用的繁簡轉換方法是以詞表為準,外加人工修正。人工修正之後的文字是這種格式,多數是為了解決各地術語名稱不同的問題 他的主要成就包括emacs及後來的gnu emacs,gnu c 編譯器及 對付這種可以簡單的使...

維基百科簡體中文語料的獲取

使用維基百科做訓練語料有很多好處 到此為止,已經完成了大部分繁簡轉換工作。實際上,維基百科使用的繁簡轉換方法是以詞表為準,外加人工修正。人工修正之後的文字是這種格式,多數是為了解決各地術語名稱不同的問題 他的主要成就包括emacs及後來的gnu emacs,gnu c 編譯器及 對付這種可以簡單的使...

DrQA基於維基百科資料的開放域問答機械人實戰教程

目錄 官方介紹 實戰一 官方介紹 drqa是乙個應用於開放域問答的閱讀理解系統。特別是,drqa的目標是 大規模機讀 mrs 在這個設定中,我們在可能非常大的非結構化文件集中搜尋問題的答案。因此,系統必須將文件檢索 查詢相關文件 的挑戰與機器對文字的理解 從這些文件中識別答案 的挑戰相結合。我們使用...