國內常見語料庫

2022-09-07 15:21:21 字數 1836 閱讀 7203

型別

語料庫名稱及大小

建設單位

英語學習者語料庫(書面語及口語)

中國學習者語料庫 clec(100萬)

廣外、上海交大

大學英語學習者口語語料庫 colsec (5萬)

上海交大

香港科技大學學習者語料庫 hkust learner corpus

香港科技大學

中國英語專業語料庫 ceme (148萬)

南京大學

中國英語學習者口語語料庫 seccl (100萬)

南京大學

國際外語學習者英語口語語料庫中國部分 linsei-china (10萬)

華南師大

碩士寫作語料庫 mwc (12萬)

華中科技大學

平行語料庫

漢英平行語料庫 pcce

北外南大-國關平行語料庫

南京大學

英漢文學作品語料庫;

外研社馮友蘭《中國哲學史》漢英對照語料庫

李約瑟(joself needham)《中國科學技術史》英漢對照語料庫

計算機專業的雙語語料庫;

國家語言文字工作委員會語言文字應用研究所

柏拉圖(plato)哲學名著《理想國》的雙語語料庫

英漢雙語語料庫(15萬對)

中科院軟體所

英漢雙語語料庫:ldc香港新聞英漢雙語對齊語料36294段以及香港法律英漢雙語對齊語料31萬句子對

中國科學院自動化研究所

英漢雙語語料庫(100萬),網上英漢語段電子詞典及網上電子英漢搭配詞典(1000萬)

東北大學

英漢雙語語料庫(40-50萬句子對)

哈爾濱工業大學

雙語語料庫(5萬多對)

北京大學計算語言學研究所

對比語料庫 livac(linguistic variety in chinese communities)

香港城市理工大學

平衡語料庫(sinica corpus);樹圖語料庫(sinica treebank)

台灣特殊英語語料庫

中國英語(china english)語料庫

河南師範大學

軍事英語語料庫(corpus of military texts)

解放軍外語學院

新視野大學英語教材語料庫

上海交通大學

漢語語料庫

漢語現代文學作品語料庫(2023年,527萬字)

武漢大學

現代漢語語料庫(2023年,2000萬字)

北京航空航天大學

中學語文教材語料庫(2023年,106萬8000字)

北京師範大學

現代漢語詞頻統計語料庫(2023年,182萬字)

北京語言學院

國家級大型漢語均衡語料庫(2000萬字)

國家語言文字工作委員會

《人民**》語料庫(2700萬字)

北京大學計算機語言學研究所

大型中文語料庫(5億字,10分庫)

北京語言文化大學

現代漢語語料庫(1億字)

清華大學

漢語新聞語料庫;(2023年,250萬字)

山西大學

標準語料庫(2023年,70萬字)

生語料庫(3000萬字);《作家文摘》的標註語料庫(100萬字)

上海師範大學

現代自然口語語料庫

中國社會科學院語言所

旅遊諮詢口語對話語料庫和旅館預定口語對話語料庫

中國科學院自動化所

原始語料庫

第一步 判斷資料中是否存在重複資料 建立python檔案 框架 author kzb time 2018 12 10 import pandas as pd import os,csv datapath os.path.join 音譯原始資料.csv def import data datapath...

單語種語料庫 平行語料庫 多語種語料庫 可比語料庫

單語種語料庫 monolingual 僅包含一種語言的文字。平行語料庫 parallel 包含兩個單語種語料庫,乙個語料庫是另乙個語料庫的翻譯。兩種語言都需要對齊,即相應的片段,通常是句子或段落需要匹配。多語種語料庫 multilingual 包含多種語言的文字,且都是相同文字的翻譯,存在與平行語料...

如何建語料庫 如何建立自己的語料庫?

謝邀。按照語料的語種,語料庫可以分成單語語料庫 雙語語料庫和多語語料庫。單語與雙語或多語語料庫之間的區別在於語料庫本身所包含的語言數量。凡語料僅為單一語言的語料庫屬於單語語料庫 語料為兩種語言的則稱為雙語語料庫 若兩種語言的文字互相是對方的譯文,則該語料庫屬於雙語平行語料庫 三種及三種以上的為多語語...