自然語言處理中語料庫的理解

2021-08-21 17:42:35 字數 884 閱讀 5122

語料庫中存放的是在語言實際使用中真實出現過的語言材料;語料庫是以電子計算機為載體承載語言知識的基礎資源;真實語料需要經過加工(分析和處理),才能成為有用的資源。語料庫(corpus,複數corpora)指經科學取樣和加工的大規模電子文字庫。借助計算機分析工具,研究者可開展相關的語言理論及應用研究

確定語料庫型別的主要依據是它的研究目的和用途,這一點往往能夠體現在語料採集的原則和方式上。可以把語料庫分成四種型別:(1)異質的(heterogeneous):沒有特定的語料收集原則,廣泛收集並原樣儲存各種語料;(2)同質的(homogeneous):只收集同一類內容的語料;(3)系統的(systematic):根據預先確定的原則和比例收集語料,使語料具有平衡性和系統性,能夠代表某一範圍內的語言事實;⑷專用的(specialized):只收集用於某一特定用途的語料

除此之外,按照語料語種,語料庫也可以分成單語的(monolingual)、雙語的(bilingual)和多語的(multilingual)。按照語料的採集單位,語料庫又可以分為語篇的、語句的、短語的。雙語和多語語料庫按照語料的組織形式,還可以分為平行(對齊)語料庫和比較語料庫,前者的語料構成譯文關係,多用於機器翻譯、雙語詞典編撰等應用領域,後者將表述同樣內容的不同語言文字收集到一起,多用於語言對比研究。已經累積了大量各種型別的語料庫,如:葡萄牙語種樹庫、面向文字分類研究的中英文新聞分類語料庫、路透社文字分類訓練語料庫、中文文字分類語料庫、大開放字幕庫opensubtitles的多語言平行語料資料(opensubtitlescorpus)、shortmessagesservice(sms)corpus(短訊息服務(sms)語料)等

1.語料庫中存放的是在語言的實際使用中真實出現過的語言材料,因此例句庫通常不應算作語料庫;2.語料庫是承載語言知識的基礎資源,但並不等於語言知識;3.真實語料需要經過加工(分析和處理),才能成為有用的資源

自然語言處理 nltk 語料庫

語料庫可以從wordnet內建語料庫匯入,也可以從外界匯入 內建語料庫列表可以在nltk官網查詢 from nltk.corpus import reuters 路透社語料庫查詢語料庫內容,可以呼叫物件的fileids 函式,該函式得到檔案及其相對路徑 files reuters.fileids p...

讀《統計自然語言處理》 語料庫與知識詞彙庫

統計自然語言處理的主要需求包括計算機 語料庫和軟體。基礎知識 1 計算機 文字語料庫通常都比較大,處理大量的文字需要相當多的計算資源。在早期的處理中,這是限制語料庫運用的主要原因。統計自然語言處理方法不僅需要大量的空間來儲存語料,而且經常需要從語料中收集大量的統計資訊,所以要求計算機有比較快的訪問速...

自然語言處理中語料處理小竅門

自然語義處理造文字分類語料的小技巧 1.根據句式造模板生成語料。2.裡面的詞語可以根據詞向量計算的相似詞進行替換生成新的語料。3.可以通過語料先訓練乙個模型,然後再跑新的資料,然後對新的資料進行審核,進行標記。4.新加乙個類別的時候可以使用句向量計算新的類別是否跟前面的類別衝突。5.統計各個類別語料...