語料庫基礎學習

2021-09-07 19:06:28 字數 912 閱讀 6029

語料庫:對語言進行全景性的透視。

語料庫思想產生的背景:

電腦科技的發展,資訊科技的支援;

從現象歸納原理的思考模式

語料庫幾個特徵

語料庫一定是機讀的,不是為人準備的,因為其統計非常的繁雜,分析非常的繁雜;

必須是確認為真的,進入語料庫的語言必須是經過挑選、篩選的

是乙個有限集合,是乙個語言的抽樣

代表性和要研究的目的是緊密相關的

語料庫建設的基本問題。

語料一旦確定,很少更新

人工參與過多,自動化程度不高

缺乏語言資源管理(缺乏**式的管理工具)

缺乏使用者定製功能

成本大,周期長

語料庫建設網路化(更多的人一起建設)

語料庫型別

平行語料庫,對其的文字。篇章對其、段落對其、句對其、亞句對其、詞對其。句對其很重要,句對其的語料庫可以作為翻譯記憶存在。

單語語料庫,語料庫只有一種語言,外語單語語料庫庫,借助於語料檢索與統計分析工具,可以得到遠超詞典和語法書的語用知識。(免費、量大、質高、檢索方便、對翻譯實務可用性較強)

按照加工與否,分為熟語料、生語料語料庫

按照語料型別,分為通用、專門用途語料庫

翻譯學者語料庫,統計口語錯誤、書面錯誤,用於對學習過程的分析的語料庫

料庫檢索工具:wordsmith(商業)、cwb(sourceforge開源)、spss|weka 統計工具及資料分析工具(商業開源)、基於web的語料庫系統:sketch engine 

語料庫在翻譯實踐中的用途

獲取專業知識、學習專業術語、借鑑表達方法、模仿寫作風格、提供翻譯策略 

幫助譯者理解原文、幫助譯者尋找更合適的表達方法

原始語料庫

第一步 判斷資料中是否存在重複資料 建立python檔案 框架 author kzb time 2018 12 10 import pandas as pd import os,csv datapath os.path.join 音譯原始資料.csv def import data datapath...

單語種語料庫 平行語料庫 多語種語料庫 可比語料庫

單語種語料庫 monolingual 僅包含一種語言的文字。平行語料庫 parallel 包含兩個單語種語料庫,乙個語料庫是另乙個語料庫的翻譯。兩種語言都需要對齊,即相應的片段,通常是句子或段落需要匹配。多語種語料庫 multilingual 包含多種語言的文字,且都是相同文字的翻譯,存在與平行語料...

如何建語料庫 如何建立自己的語料庫?

謝邀。按照語料的語種,語料庫可以分成單語語料庫 雙語語料庫和多語語料庫。單語與雙語或多語語料庫之間的區別在於語料庫本身所包含的語言數量。凡語料僅為單一語言的語料庫屬於單語語料庫 語料為兩種語言的則稱為雙語語料庫 若兩種語言的文字互相是對方的譯文,則該語料庫屬於雙語平行語料庫 三種及三種以上的為多語語...