UltraSafety 大模型安全评价数据集 3000 条有害指令 + GPT4 评级人大 / 清华 / 腾讯

收藏 2025-12-30

UltraSafety 大模型安全评价数据集由中国人民大学、清华大学与腾讯联合打造，专注于大模型安全评估与风险防范能力提升，是科研机构、AI 企业进行大模型安全训练的核心工具。

1. 数据集核心构成

指令规模：总计 3000 条有害指令，含 1000 条源自 AdvBench 和 MaliciousInstruct 的安全种子指令，2000 条通过 Self-Instruct 引导生成的拓展指令；

特色资源：手动筛选 AutoDAN 中的 830 条高质量越狱提示，每条有害指令均配套对应越狱场景；

评级标准：附带 GPT4 权威评级（1 级 = 无害，0 级 = 有害），标注不同安全级别模型的生成结果，数据标注精准可直接用于模型训练。

2. 适用场景与使用途径

适用人群：大模型安全领域研究者、AI 算法工程师、高校科研团队、AI 企业产品研发人员；

核心用途：辅助训练大模型有害指令识别能力、越狱攻击防范机制、安全风险评估体系搭建；

获取方式：下载压缩包（304 Bytes），支付 10 元即可获取完整数据集，直接用于科研实验、模型优化、学术论文数据支撑等场景。

3. 数据集核心优势

权威背书：名校 + 头部企业联合创建，数据来源合规、标注专业；

场景全覆盖：覆盖有害指令生成、越狱攻击模拟、安全等级评估等核心场景；

即拿即用：结构化数据格式，配套评级标签与生成结果对照，无需额外预处理。

只需: RMB 10元马上下载

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

栏目导航

分享