語料庫與語言知識庫

2021-09-26 08:23:09 字數 1899 閱讀 4116

語料庫(corpus base)就是存放語言材料的資料庫。那麼,顧名思義,語料庫語言學(corpus linguistics)就是

基於語料庫進行語言學研究的一門學問。具體一點講,語料庫語言學是研究自然語言機讀文字(或稱「電子文字」)的採集、儲存、標註、檢索、統計等方法的一門學問,其目的是通過對客觀存在的大規模真實文字中的語言事實進行定量分析,為語言學研究或自然語言處理系統開發提供支援。

語料庫語言學研究的內容十分廣泛,涉及語料庫的建設和利用等多個方面,歸納起來,可以大致包括如下幾方面的內容: ①語料庫的建設與編纂;②語料庫的加工和管理;③語料庫的應用,包括在語言學研究(言語、詞彙和語義研究等)中的應用和在自然語言處理中的應用。

按語種劃分可以分為單語種語料庫和多語種語料庫;按記載**不同可以分為單**語料庫和多**語料庫;按照地域區別可以分為國家語料庫和國際語料庫等。這裡主要介紹以語料代表性和平衡性為主要區分依據的「平衡語料庫與平行語料庫」、以語料庫用途為主要區分依據的「通用語料庫與專用語料庫」、以語料分布時間為主要區分依據的「共時語料庫與歷時語料庫」和以語料庫內容加工程度劃分的「生語料與標註語料庫」。

平衡語料庫與平行語料庫

平衡語料庫著重考慮的是語料的代表性與平衡性。張普(2003)曾經提出語料採集的七項原則:語料的真實性、語料的可靠性、語料的科學性、語料的代表性、語料的權威性、語料的分布性和語料的流通性。其中,語料的分布性還要考慮語料的科學領域分布、地域分布、時間分布和語體分布等。

通用語料庫與專用語料庫

所謂的通用語料庫實際上與平衡語料庫是從不同角度看問題的結果,或者說是與專用領域對舉的結果。為了某種專門的目的,只採集某一特定領域、特定地區、特定時間、特定型別的語料構成的語料庫就是專用語料庫。例如,新聞語料庫、科技語料庫、中小學語料庫、北京口語語料庫等。

共時語料庫與歷時語料庫

所謂共時語料庫是為了對語言進行共時研究而建立的語料庫。按照索緒爾的觀點,共時研究是指研究大樹的橫斷面所見的細胞和細胞關係,即研究乙個共時平面中的元素與元素的關係。無論所採集語料的時間段有多長,只要研究的是乙個平面上的元素或元素的關係,就是共時研究,所建立的語料庫就是共時語料庫。

所謂的歷時語料庫是為了對語言進行歷時研究而建立的語料庫。根據歷時語料庫得到的統計結果就不像共時語料庫的統計結果是乙個頻次點,而是依據時間軸的等距離抽樣得到的若干頻次變化形成的演變曲線,我們把這種曲線稱為變化「走勢圖」。

生語料與標註語料庫

所謂生語料是指沒有經過任何加工處理的原始語料資料(corpora with raw data)。組織者只是簡單地把語料收集起來,不加任何標註資訊。

標註語料庫是指經過加工處理、標註了特定資訊的語料庫。根據加工程度不同,標註語料庫又可以細分為分詞語料庫(主要指漢語)、分詞與詞性標註語料庫、樹庫(tree bank)、命題庫(proposition bank)、篇章樹庫(discourse tree bank等。

語料庫建設的規範問題

產權保護和國家語料庫建設問題

ldc中文樹庫

命題庫、名詞化樹庫和語篇庫。命題庫(propbank)、名詞化樹庫(nombank)和語篇樹庫(penn discourse tree bank, pdtb)是賓夕法尼亞樹庫(penn tree bank)的擴充套件。

布拉格依存樹庫

btec口語語料

現代漢語口語語料庫

台灣中研院語料庫

「語言知識庫」比「語料庫」包含更廣泛的內容。概括起來講,語言知識庫可分為兩種不同的型別:一類是詞典、規則庫、語

義概念庫等,其中的語言知識表示是顯性的,可採用形式化結構描述;另一類語言知識存在於語料庫之中,每個語言單位的出現,其範疇、意義、用法都是確定的。語料庫的主體是文字,即語句的集合,每個語句都是線性的非結構化的文字序列,其中包含的知識都是隱性的。語料加工的目的就是要把隱性的知識顯性化,以便於機器學習和引用。

wordnet

framenet

edr北京大學綜合型語言知識庫

知網概念層次網路

原始語料庫

第一步 判斷資料中是否存在重複資料 建立python檔案 框架 author kzb time 2018 12 10 import pandas as pd import os,csv datapath os.path.join 音譯原始資料.csv def import data datapath...

單語種語料庫 平行語料庫 多語種語料庫 可比語料庫

單語種語料庫 monolingual 僅包含一種語言的文字。平行語料庫 parallel 包含兩個單語種語料庫,乙個語料庫是另乙個語料庫的翻譯。兩種語言都需要對齊,即相應的片段,通常是句子或段落需要匹配。多語種語料庫 multilingual 包含多種語言的文字,且都是相同文字的翻譯,存在與平行語料...

讀《統計自然語言處理》 語料庫與知識詞彙庫

統計自然語言處理的主要需求包括計算機 語料庫和軟體。基礎知識 1 計算機 文字語料庫通常都比較大,處理大量的文字需要相當多的計算資源。在早期的處理中,這是限制語料庫運用的主要原因。統計自然語言處理方法不僅需要大量的空間來儲存語料,而且經常需要從語料中收集大量的統計資訊,所以要求計算機有比較快的訪問速...