NLP基準測試

1、squad（stanford question answering dataset）

squad是什麼？

squad 是史丹福大學於2023年推出的資料集，乙個閱讀理解資料集，給定一篇文章，準備相應問題，需要演算法給出問題的答案。此資料集所有文章選自維基百科，資料集的量為當今其他資料集(例如，wikiqa)的幾十倍之多。一共有107,785問題，以及配套的 536 篇文章。資料集的貢獻者為斯坦福percy liang等人，percy liang是自然語言處理界的一位全才，在semantic parsing, qa, optimization等多

2、glue

通常來說，nlp可以分為自然語言理解（nlu）和自然語言生成（nlg）。在nlu方面，我們拿時下最流行的glue(general language understanding evaluation)排行榜舉例，其上集合了九項nlu的任務，分別是：

cola(the corpus of linguistic acceptability):紐約大學發布的有關語法的資料集，該任務主要是對乙個給定句子，判定其是否語法正確，因此cola屬於單個句子的文字二分類任務；

mrpc(microsoft research paraphrase corpus)，由微軟發布，判斷兩個給定句子，是否具有相同的語義，屬於句子對的文字二分類任務；

sts-b(semantic textual similarity benchmark)，主要是來自於歷年semeval中的乙個任務（同時該資料集也包含在了senteval），具體來說是用1到5的分數來表徵兩個句子的語義相似性，本質上是乙個回歸問題，但依然可以用分類的方法做，因此可以歸類為句子對的文字五分類任務；

qqp(quora question pairs)，是由quora發布的兩個句子是否語義一致的資料集，屬於句子對的文字二分類任務；

mnli(multi-genre natural language inference)，同樣由紐約大學發布，是乙個文字蘊含的任務，在給定前提（premise）下，需要判斷假設（hypothesis）是否成立，其中因為mnli主打賣點是集合了許多不同領域風格的文字，因此又分為matched和mismatched兩個版本的mnli資料集，前者指訓練集和測試集的資料**一致，而後者指**不一致。該任務屬於句子對的文字三分類問題。

qnli（question natural language inference)，其前身是squad 1.0資料集，給定乙個問句，需要判斷給定文字中是否包含該問句的正確答案。屬於句子對的文字二分類任務；

rte(recognizing textual entailment)，和mnli類似，也是乙個文字蘊含任務，不同的是mnli是三分類，rte只需要判斷兩個句子是否能夠推斷或對齊，屬於句子對的文字二分類任務；

wnli(winograd natural language inference)，也是乙個文字蘊含任務，不過似乎glue上這個資料集還有些問題；

3.、race

有待補充

4、xtreme

xtreme: a massively multilingual multi-task benchmark for evaluating cross-lingual generalization

一種用於跨語言綜合評價的大規模多語言多工基準

this repository contains information about xtreme, code for downloading data, and implementations of baseline systems for the benchmark.

NLP基準測試

mysql基準測試例項 mysql基準測試

mysql 基準測試指令碼 MySQL基準測試

mysql 基準測試報告 Mysql基準測試

NLP基準測試

mysql基準測試例項 mysql基準測試

mysql 基準測試指令碼 MySQL基準測試

mysql 基準測試報告 Mysql基準測試

相關推薦