Skip to content

下游任务数据集

zhezhaoa edited this page Oct 26, 2023 · 6 revisions

CLUE 数据集

CLUE 是一个中文语言理解测评基准,包括分类、命名实体识别和机器阅读理解任务。CLUE中的数据集为JSON格式。对于分类和命名实体识别数据集,我们将JSON格式转换为TSV格式,以便TencentPretrain可以直接加载它们;对于机器阅读理解数据集,我们保留原始格式,并将数据集预处理相关代码放在项目中。

分类:

数据集 链接
TNEWS https://share.weiyun.com/maExfIeO
CSL https://share.weiyun.com/LftIGlIT
CMNLI https://share.weiyun.com/hn3kTeKm
OCNLI https://share.weiyun.com/wkltwNwg
AFQMC https://share.weiyun.com/CdlEKMON
IFLYTEK https://share.weiyun.com/ldiLjnZJ
CLUEWSC2020 https://share.weiyun.com/RLL1ShBi

机器阅读理解:

数据集 链接
CMRC2018 https://share.weiyun.com/KwAbnX60
C3 https://share.weiyun.com/JDpgczdp
ChID https://share.weiyun.com/8KJE3NOz

命名实体识别:

数据集 链接
CLUENER2020 https://share.weiyun.com/smSMtLkn

百度 ERNIE

ERNIE1.0提供了5个中文数据集,并在这些数据集上测试ERNIE的效果。

数据集 链接
ChnSentiCorp https://share.weiyun.com/BRujeOQT
LCQMC https://share.weiyun.com/5Fmf2SZ
XNLI https://share.weiyun.com/mcd8EApl
MSRA-NER https://share.weiyun.com/ua1Z5w2r
NLPCC-DBQA https://share.weiyun.com/5HJMbih

竞赛数据集

数据集 链接
SMP2020微博情绪分类技术评测 https://share.weiyun.com/uFGEhrWp
SMP2019中文隐式情感分析评测 https://share.weiyun.com/MgHL8QSI
CCF-BDCI2021-面向黑灰产治理的恶意短信变体字还原 https://share.weiyun.com/xHr6OkQw

GLUE 数据集

GLUE 是一个英文语言理解测评基准,包括分类、回归自然语言理解任务。我们将GLUE评测基准中的数据集转换为TSV格式,以便TencentPretrain可以直接加载它们。

数据集 链接
CoLA https://share.weiyun.com/n5kPUmsr
SST-2 https://share.weiyun.com/48noHt6Y
MRPC https://share.weiyun.com/7nXAjpYo
STS-B https://share.weiyun.com/8DJUM18K
QQP https://share.weiyun.com/1k6IGbfj
MNLI https://share.weiyun.com/tzMoGpIe
QNLI https://share.weiyun.com/J7LQKCYY
RTE https://share.weiyun.com/EnGVoElX
WNLI https://share.weiyun.com/752vzwjP

视觉数据集

数据集 链接
CIFAR10 https://share.weiyun.com/s4oS4HWN
CIFAR100 https://share.weiyun.com/7UJfHbib

语音数据集

以下数据集从LibriSpeech/train-clean-100中抽取,训练集共10h,原始数据集在这里下载。

数据集 链接
LibriSpeech_10h https://share.weiyun.com/QRTYgFEK
Clone this wiki locally