UltraSafety 大模型安全评价数据集由中国人民大学、清华大学与腾讯联合打造,专注于大模型安全评估与风险防范能力提升,是科研机构、AI 企业进行大模型安全训练的核心工具。
1. 数据集核心构成
指令规模:总计 3000 条有害指令,含 1000 条源自 AdvBench 和 MaliciousInstruct 的安全种子指令,2000 条通过 Self-Instruct 引导生成的拓展指令;
特色资源:手动筛选 AutoDAN 中的 830 条高质量越狱提示,每条有害指令均配套对应越狱场景;
评级标准:附带 GPT4 权威评级(1 级 = 无害,0 级 = 有害),标注不同安全级别模型的生成结果,数据标注精准可直接用于模型训练。
2. 适用场景与使用途径
适用人群:大模型安全领域研究者、AI 算法工程师、高校科研团队、AI 企业产品研发人员;
核心用途:辅助训练大模型有害指令识别能力、越狱攻击防范机制、安全风险评估体系搭建;
获取方式:下载压缩包(304 Bytes),支付 10 元即可获取完整数据集,直接用于科研实验、模型优化、学术论文数据支撑等场景。
3. 数据集核心优势
权威背书:名校 + 头部企业联合创建,数据来源合规、标注专业;
场景全覆盖:覆盖有害指令生成、越狱攻击模拟、安全等级评估等核心场景;
即拿即用:结构化数据格式,配套评级标签与生成结果对照,无需额外预处理。