基於維基百科構建平行語料庫

本文輔助有需求人士建立平行語料庫。

工具github鏈結

第一步：從」上檢視自己選的小語種的639-1碼

ps：特定於語言的過濾

如果該對中的一種語言使用特定的unicode範圍，則可以輕鬆過濾掉不包含此類字元的行。filters/目錄中包含一些指令碼的示例過濾器。

例如，以下內容將篩選出不包含至少乙個perso-arabic字元的對：

./build-corpus.sh en arwiki-20140831 | ./filters/filter-perso-arabic.pl > titles.txt

最後，如果titles.txt是空的，將scripts中的extract.pl和utf8-normalize.s**件用記事本開啟

將所有的iconv -f utf8 -t utf8 -c換成iconv -f utf-8 -t utf-8 -c即可。

維基百科簡體中文語料的獲取

使用維基百科做訓練語料有很多好處到此為止，已經完成了大部分繁簡轉換工作。實際上，維基百科使用的繁簡轉換方法是以詞表為準，外加人工修正。人工修正之後的文字是這種格式，多數是為了解決各地術語名稱不同的問題他的主要成就包括emacs及後來的gnu emacs，gnu c 編譯器及對付這種可以簡單的使...

維基百科簡體中文語料的獲取

DrQA基於維基百科資料的開放域問答機械人實戰教程

目錄官方介紹實戰一官方介紹 drqa是乙個應用於開放域問答的閱讀理解系統。特別是，drqa的目標是大規模機讀 mrs 在這個設定中，我們在可能非常大的非結構化文件集中搜尋問題的答案。因此，系統必須將文件檢索查詢相關文件的挑戰與機器對文字的理解從這些文件中識別答案的挑戰相結合。我們使用...

基於維基百科構建平行語料庫

維基百科簡體中文語料的獲取

維基百科簡體中文語料的獲取

DrQA基於維基百科資料的開放域問答機械人實戰教程

相關推薦