-
Notifications
You must be signed in to change notification settings - Fork 142
下游任务数据集
zhezhaoa edited this page Oct 26, 2023
·
6 revisions
CLUE 是一个中文语言理解测评基准,包括分类、命名实体识别和机器阅读理解任务。CLUE中的数据集为JSON格式。对于分类和命名实体识别数据集,我们将JSON格式转换为TSV格式,以便TencentPretrain可以直接加载它们;对于机器阅读理解数据集,我们保留原始格式,并将数据集预处理相关代码放在项目中。
分类:
数据集 | 链接 |
---|---|
TNEWS | https://share.weiyun.com/maExfIeO |
CSL | https://share.weiyun.com/LftIGlIT |
CMNLI | https://share.weiyun.com/hn3kTeKm |
OCNLI | https://share.weiyun.com/wkltwNwg |
AFQMC | https://share.weiyun.com/CdlEKMON |
IFLYTEK | https://share.weiyun.com/ldiLjnZJ |
CLUEWSC2020 | https://share.weiyun.com/RLL1ShBi |
机器阅读理解:
数据集 | 链接 |
---|---|
CMRC2018 | https://share.weiyun.com/KwAbnX60 |
C3 | https://share.weiyun.com/JDpgczdp |
ChID | https://share.weiyun.com/8KJE3NOz |
命名实体识别:
数据集 | 链接 |
---|---|
CLUENER2020 | https://share.weiyun.com/smSMtLkn |
ERNIE1.0提供了5个中文数据集,并在这些数据集上测试ERNIE的效果。
数据集 | 链接 |
---|---|
ChnSentiCorp | https://share.weiyun.com/BRujeOQT |
LCQMC | https://share.weiyun.com/5Fmf2SZ |
XNLI | https://share.weiyun.com/mcd8EApl |
MSRA-NER | https://share.weiyun.com/ua1Z5w2r |
NLPCC-DBQA | https://share.weiyun.com/5HJMbih |
数据集 | 链接 |
---|---|
SMP2020微博情绪分类技术评测 | https://share.weiyun.com/uFGEhrWp |
SMP2019中文隐式情感分析评测 | https://share.weiyun.com/MgHL8QSI |
CCF-BDCI2021-面向黑灰产治理的恶意短信变体字还原 | https://share.weiyun.com/xHr6OkQw |
GLUE 是一个英文语言理解测评基准,包括分类、回归自然语言理解任务。我们将GLUE评测基准中的数据集转换为TSV格式,以便TencentPretrain可以直接加载它们。
数据集 | 链接 |
---|---|
CIFAR10 | https://share.weiyun.com/s4oS4HWN |
CIFAR100 | https://share.weiyun.com/7UJfHbib |
以下数据集从LibriSpeech/train-clean-100中抽取,训练集共10h,原始数据集在这里下载。
数据集 | 链接 |
---|---|
LibriSpeech_10h | https://share.weiyun.com/QRTYgFEK |