NLP基準測試

2021-10-10 11:37:28 字數 1800 閱讀 4914

1、squad(stanford question answering dataset)

squad是什麼?

squad 是史丹福大學於2023年推出的資料集,乙個閱讀理解資料集,給定一篇文章,準備相應問題,需要演算法給出問題的答案。此資料集所有文章選自維基百科,資料集的量為當今其他資料集(例如,wikiqa)的幾十倍之多。一共有107,785問題,以及配套的 536 篇文章。資料集的貢獻者為斯坦福percy liang等人,percy liang是自然語言處理界的一位全才,在semantic parsing, qa, optimization等多

2、glue

通常來說,nlp可以分為自然語言理解(nlu)和自然語言生成(nlg)。在nlu方面,我們拿時下最流行的glue(general language understanding evaluation)排行榜舉例,其上集合了九項nlu的任務,分別是:

cola(the corpus of linguistic acceptability):紐約大學發布的有關語法的資料集,該任務主要是對乙個給定句子,判定其是否語法正確,因此cola屬於單個句子的文字二分類任務;

mrpc(microsoft research paraphrase corpus),由微軟發布,判斷兩個給定句子,是否具有相同的語義,屬於句子對的文字二分類任務;

sts-b(semantic textual similarity benchmark),主要是來自於歷年semeval中的乙個任務(同時該資料集也包含在了senteval),具體來說是用1到5的分數來表徵兩個句子的語義相似性,本質上是乙個回歸問題,但依然可以用分類的方法做,因此可以歸類為句子對的文字五分類任務;

qqp(quora question pairs),是由quora發布的兩個句子是否語義一致的資料集,屬於句子對的文字二分類任務;

mnli(multi-genre natural language inference),同樣由紐約大學發布,是乙個文字蘊含的任務,在給定前提(premise)下,需要判斷假設(hypothesis)是否成立,其中因為mnli主打賣點是集合了許多不同領域風格的文字,因此又分為matched和mismatched兩個版本的mnli資料集,前者指訓練集和測試集的資料**一致,而後者指**不一致。該任務屬於句子對的文字三分類問題。

qnli(question natural language inference),其前身是squad 1.0資料集,給定乙個問句,需要判斷給定文字中是否包含該問句的正確答案。屬於句子對的文字二分類任務;

rte(recognizing textual entailment),和mnli類似,也是乙個文字蘊含任務,不同的是mnli是三分類,rte只需要判斷兩個句子是否能夠推斷或對齊,屬於句子對的文字二分類任務;

wnli(winograd natural language inference),也是乙個文字蘊含任務,不過似乎glue上這個資料集還有些問題;

3.、race

有待補充

4、xtreme

xtreme: a massively multilingual multi-task benchmark for evaluating cross-lingual generalization

一種用於跨語言綜合評價的大規模多語言多工基準

this repository contains information about xtreme, code for downloading data, and implementations of baseline systems for the benchmark.

mysql基準測試例項 mysql基準測試

toc 單位時間內所處理的事務數 tps 單位時間內所處理的查詢數 qps 響應時間 平均響應時間,最小響應時間,最大響應時間,各時間所佔百分比 併發量 同時處理的查詢請求的數量 併發量不等於連線數 正在工作的併發的操作或同時工作的數量 工具 mysqlslap mysql自帶的 特點 可以模擬伺服...

mysql 基準測試指令碼 MySQL基準測試

常見指標 tps transaction per second qps query per second 響應時間 併發量步驟 計畫和設計基準測試 準備基準測試及資料收集指令碼 容易忽略的問題 使用生產環境資料時只使用了部分資料 在多使用者場景中,只做單使用者的測試 在單伺服器上測試分布式應用 反覆...

mysql 基準測試報告 Mysql基準測試

一 基準測試 基準測試的作用 了解當前系統的效能,建立mysql伺服器效能基準線 為之後的效能優化提供乙個超始線 模擬比當前系統更高的負載,找出系統的擴充套件瓶頸,為系統擴充套件與優化提供參考條件 測試不同的硬體 軟體和作業系統配置 證明新的硬體裝置是否配置正確和是否是最優配置 基準測試可以分為整合...