本代码的运行环境与竞赛要求的环境一致,详细环境配置可参见官方竞赛页面的原始提交指南。
我们使用了 QWen-14b 模型进行数据增强操作。具体来说,为了减少随机性,我们将 top-p
和 temp
参数都设为 0。若需复现,请参考 QWen-14B-Chat 模型下载。
本方案通过数据增强提高测试数据集上的摘要任务性能。考虑到测试数据显示的摘要任务能力不足,我们将问答数据转换为摘要形式,从而间接扩充训练集。目的是创建一个数据丰富、多样化的摘要任务训练集,以帮助模型更好地学习和理解摘要任务要求,进而在测试数据集上表现出更强的性能。
- 预处理:对原始英文数据集
raw_data_en
进行预处理,包括两个步骤:使用bloom-oscar.yaml
和redpajama-c4-refine.yaml
进行处理。 - 结果:生成中间数据集
train-bloom-c4.json
。
- 处理过程:使用 qwen-14b 模型对
train-bloom-c4.json
进行推理,融入摘要任务的提示。 - 实现代码:见
FT-Data-Ranker-7b-code-model/code-data/data/construct_data.py
和FT-Data-Ranker-7b-code-model/code-data/competition_kit/qwen-infer.py
。
- 输出:生成约1万条新的文本摘要主题相关问答对数据,保存在
competition_kit/data/raw_data/train_bloom-c4-summ.jsonl
。
- 构建过程:结合新生成的数据和原有的英文、中文数据,构建最终训练集
train_bloom-c4-qwen14b-1w-summ.json
。 - 细节:详见
FT-Data-Ranker-7b-code-model/code-data/competition_kit/lm-training/get_train_dataset_7b.py
。
- 处理方式:使用同一文件夹中的
alpaca
配置文件。
- 实现方式:设计针对特定关键词的硬匹配采样策略,实现见
competition_kit/lm-training/get_train_dataset_7b.py
。
- 配置:在训练过程中,未对训练参数进行更改。
- 推理方式:在模型推理阶段,选择使用 fp32 精度确保结果准确性。