單語種語料庫 平行語料庫 多語種語料庫 可比語料庫

2021-10-16 12:31:53 字數 258 閱讀 9344

單語種語料庫(monolingual):僅包含一種語言的文字。

平行語料庫(parallel):包含兩個單語種語料庫,乙個語料庫是另乙個語料庫的翻譯。(兩種語言都需要對齊,即相應的片段,通常是句子或段落需要匹配。)

多語種語料庫(multilingual):包含多種語言的文字,且都是相同文字的翻譯,存在與平行語料庫相同的方式對齊。

可比語料庫(comparable):一組兩個或兩個以上的單語語料庫,其文字涉及同一主題的,但它們不是彼此的翻譯,因此沒有對齊。

原始語料庫

第一步 判斷資料中是否存在重複資料 建立python檔案 框架 author kzb time 2018 12 10 import pandas as pd import os,csv datapath os.path.join 音譯原始資料.csv def import data datapath...

如何建語料庫 如何建立自己的語料庫?

謝邀。按照語料的語種,語料庫可以分成單語語料庫 雙語語料庫和多語語料庫。單語與雙語或多語語料庫之間的區別在於語料庫本身所包含的語言數量。凡語料僅為單一語言的語料庫屬於單語語料庫 語料為兩種語言的則稱為雙語語料庫 若兩種語言的文字互相是對方的譯文,則該語料庫屬於雙語平行語料庫 三種及三種以上的為多語語...

如何建語料庫 如何建立自己的語料庫?

不知道題主具體問的是什麼考試的語料庫,我從自己考托福的角度出發,說說托福寫作語料庫的建立吧。一 為什麼要建立自己的語料庫?英語寫作雖然不要求像高考作文那樣寫800到1000字,但是對字數都還是有一定的要求的。要擺脫小學生作文,流水賬的作文,就必須給自己建立語料庫。要麼,是給了你論點然後加上簡單的例子...