每个压缩包对应的语料分类能否提供下？ #2

ScottishFold007 · 2023-01-13T11:18:31Z

数据规模还是比较大的，能否进一步提供每个压缩包对应的语料分类？也就是这个包含有小说、散文、作文还是其他类别？

esbatmop · 2023-01-13T14:50:16Z

本项目是为了对标ChatGPT的40T网页语料，力求在数据量上先达到同一级别，暂时不提供索引和分类。

esbatmop · 2023-01-13T23:06:41Z

因为我们没有对数据来源进行版权审核的能力，为了能尽量长期的提供服务，本数据集不会提供压缩包的索引和分类信息，并且恳请网友们不要讨论压缩包的索引和分类，低调的使用数据。

Orion-Zheng · 2023-07-27T02:06:40Z

请问压缩包之间的数据会有重叠吗？

Provide feedback