DataAsset-Generator

基于AI和文档的大规模数据集生成和验证工具｜ChatGLM、 P-Tuning v2、ChatGPT

介绍

工具目标主要集中在主流大模型微调数据集样本的生成方面，偏重利用文档生成我们希望领域的问答数据集。目前，实际应用于ChatGLM-6B + P-Tuning v2框架的优化微调场景，文档来自大量包含语料内容的TXT文档，通过提示词和ChatGPT-3生成相关问答指令样本，并导出为微调框架可直接利用的训练文件。

使用方法

整体流程分为五步：

GPT参数设置：设置GPT类型、GPT API KEY、GPT提示词
文档上传和解析设置：上传文档、设置文档分段字数（字数范围内，以最后一个句号为分段后的内容结尾）
文档解析结果展示：展示分段后的文档内容、切换上下文段
样本生成参数设置和结果展示：设置生成的问题数量、链接GPT根据提示词生成问答样本
导出样本集：缓存当前文段生成问答样本、导出当前工作缓存的所有问答数据集为训练文件、下载导出的训练文件有些步骤可单独使用或组合使用。

待改进

模块1 仅支持ChatGPT-3.5，即将支持ChatGPT-4和本地化部署ChatGLM，未来支持更多大模型框架
模块2 仅支持txt，即将支持docx，未来支持xlsx、pptx等格式（需结合相关nlp和文档解析框架）
模块4 样本生成结果全搬GPT回答，未来支持提取GPT回答结果中的问答内容并结构化
整体确少异常校验，未来需提高整体可用性和交互性

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
LICENSE		LICENSE
README.md		README.md
dataAsset_generator.py		dataAsset_generator.py
homepage-introduction.png		homepage-introduction.png
homepage.png		homepage.png

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

DataAsset-Generator

介绍

使用方法

待改进

About

Uh oh!

Releases

Packages

Languages

License

Markz1122/DataAsset-Generator

Folders and files

Latest commit

History

Repository files navigation

DataAsset-Generator

介绍

使用方法

待改进

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages