熱門語料庫(參考)

2021-10-11 09:35:49 字數 344 閱讀 1844

熱門語料庫-摘自python文字分析一書(可能現在有些過時了)

brown語料庫,當代美國英語標準語料庫

lob語料庫,目的一共乙個與brown對應的英國語料庫

collins:大型英語現代文字電子語料庫

penn treebank:包括標記和解析的英語句子

bnc:英國國家語料庫(bnc)是最大的英語語料庫之一

anc:anc大學美國英語語料庫

coca:美國當代英語語料庫

谷歌n-gram語料庫

路透社語料庫:專門為開展自然語言處理和機器學習而準備的,2000

網頁,聊天記錄,郵件,推特……

原始語料庫

第一步 判斷資料中是否存在重複資料 建立python檔案 框架 author kzb time 2018 12 10 import pandas as pd import os,csv datapath os.path.join 音譯原始資料.csv def import data datapath...

單語種語料庫 平行語料庫 多語種語料庫 可比語料庫

單語種語料庫 monolingual 僅包含一種語言的文字。平行語料庫 parallel 包含兩個單語種語料庫,乙個語料庫是另乙個語料庫的翻譯。兩種語言都需要對齊,即相應的片段,通常是句子或段落需要匹配。多語種語料庫 multilingual 包含多種語言的文字,且都是相同文字的翻譯,存在與平行語料...

如何建語料庫 如何建立自己的語料庫?

謝邀。按照語料的語種,語料庫可以分成單語語料庫 雙語語料庫和多語語料庫。單語與雙語或多語語料庫之間的區別在於語料庫本身所包含的語言數量。凡語料僅為單一語言的語料庫屬於單語語料庫 語料為兩種語言的則稱為雙語語料庫 若兩種語言的文字互相是對方的譯文,則該語料庫屬於雙語平行語料庫 三種及三種以上的為多語語...