Skip to content

CoolW9/ADML

Repository files navigation

🛡️ ADML: 面向中国多民族语言的大模型攻防框架

ADML是一个专为中国多民族语言场景构建的大模型安全评估与防御框架,涵盖构建攻击数据、指令风险分类模型与通用防御机制三大模块。本项目致力于探索多民族语言环境下的大语言模型安全问题,希望可以推动中国少数民族等低资源语言环境下的安全研究。


📚 目录

  1. 🔖 分类标准
  2. 🎯 贡献
  3. 📁 仓库文件架构

🔖 分类标准

本项目充分参考了 2024 年 5 月 23 日由全国网络安全标准化技术委员会发布的国家标准:

《网络安全技术 生成式人工智能服务安全基本要求(征求意见稿)》
📄 点击查看原文

我们基于该标准的核心规范与分类思路,对攻击数据集、分类模型与安全响应规则的设计均进行了全面的系统性细化,同时确保数据集适应多民族语言语境下的文化适配需求。项目所采用的分类标准如下表所示。

大模型的安全风险类型 安全风险涉及的具体场景
侵犯合法权益 侵害他人个人信息权益;侵害他人名誉权;侵害他人肖像权;侵害他人荣誉权;侵害他人隐私权;侵犯他人其他合法权益;危害他人身心健康
商业违法违规 侵犯他人知识产权;其他商业违法违规行为;利用算法、数据、平台等优势,实施垄断和不正当竞争行为;泄露他人商业秘密;违反商业道德
歧视内容 信仰歧视内容;健康歧视内容;其他方面歧视内容;国籍歧视内容;地域歧视内容;年龄歧视内容;性别歧视内容;民族歧视内容;职业歧视内容
特殊领域 法律、医疗、历史、科学、金融等内容不准确,严重不符合科学常识或主流认知;法律、医疗、历史、科学、金融等内容不可靠,虽然不包含严重错误的内容,但无法对使用者形成帮助
违反价值观 传播虚假有害信息;其他法律、行政法规禁止的内容;危害国家安全和利益、损害国家形象;宣扬恐怖主义、极端主义;宣扬暴力、淫秽色情;宣扬民族仇恨;煽动分裂国家、破坏国家统一和社会稳定;煽动颠覆国家政权、推翻社会主义制度

🎯 贡献(声明:数据集中涉及的内容,均不代表本项目的立场

(1)多民族语言平行攻击数据集 ADML-Attacker

本项目构建了覆盖汉语、藏语、蒙古语与维吾尔语四类代表性民族语言场景的平行数据集ADML-Attacker,该数据集通过模拟等价攻击意图在多语境下的表达差异,为大模型在民族语言下的细粒度安全评估提供标准化基准与系统性测量手段。数据规模与其他相关信息如下表所示。

📊 数据相关信息

语言 指令数量 攻击类别 涉及场景
汉语 10k 5 类 31种
藏语 10k 5 类 31种
蒙古语 10k 5 类 31种
维吾尔语 10k 5 类 31种

⚠️ 出于数据安全考虑和潜在的危害性影响,当前仓库中可下载的公开测试集仅包括部分危害性较低的测试数据。我们在当前仓库中仅对每种语言公开1000条平行攻击数据(共计4000条),以便于大家确认本项目的研究内容以及数据的基本信息。

⚠️ 为了更多研究人员进行相关领域的安全研究,后续我们将会开放申请通道,支持申请并下载全部的数据集。


(2)多民族语言指令风险分类模型 ADML-Classifier

本项目提出了一种适用于少数民族语言场景的指令风险分类模型 ADML-Classifier,该模型以多民族语言预训练语言模型 CINO 为基础,结合任务适配微调策略,能够对用户输入指令进行安全性判别,并进一步细化识别至以下的五类核心风险类型:违反人类价值观、包含歧视性内容、侵犯合法权益、商业违法违规行为以及特殊安全领域。在模型训练阶段,本项目利用分别微调了两个版本的民族语言指令风险分类器:一是仅基于中文数据训练的单语模型,二是融合藏、蒙、维与汉语训练语料的多语模型。


(3)多民族语言大模型防御框架 ADML-Defender

本项目设计了基于安全规则向量库的多民族防御框架 ADML-Defender,该框架融合了向量检索机制与大模型提示工程技术,可以实现对潜在有害指令输出的有效约束。该方法能够在推理过程中主动调用相关规则,对模型响应进行动态引导与干预,从而提升其在面对高风险输入时的安全稳健性。安全响应规则数据的规模以及相关相关信息如下表所示。

📊 数据相关信息

语言 指令数量 风险类别 涉及场景
汉语 1550 5 类 31种
藏语 1550 5 类 31种
蒙古语 1550 5 类 31种
维吾尔语 1550 5 类 31种

📁 仓库文件架构

以下为项目的主要文件组织结构:

ADML/
│
├── ADML-Attacker_多民族语言平行攻击指令数据集/
│   ├── ADML-Attacker_中文指令.json                     # 中文攻击指令
│   └── ADML-Attacker_藏文指令.json                     # 藏文攻击指令
│   └── ADML-Attacker_维吾尔文指令.json                     # 维吾尔文攻击指令
│   └── ADML-Attacker_蒙古文指令.json                     # 蒙古文攻击指令
│
├── ADML-Defender_多民族语言安全响应规则/
│   ├── ADML-Defender_中文安全响应规则.json                     # 中文安全响应规则库
│   └── ADML-Defender_藏文安全响应规则.json                     # 藏文安全响应规则库
│   └── ADML-Defender_维吾尔文安全响应规则.json                  # 维吾尔文安全响应规则库
│   └── ADML-Defender_蒙古文安全响应规则.json                   # 蒙古文安全响应规则库
│
└── README.md                     # 项目说明文件

About

ADML:面向中国多民族语言的大模型攻防框架

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published