全部版块 我的主页
论坛 数据科学与人工智能 人工智能 深度学习
135 0
2025-11-26

HH-RLHF 是由 Anthropic 于 2022 年发布的一个人类偏好数据集,主要由两部分组成。

数据集组成:有益/无害的人类偏好数据(PM Data):相关论文成果为「Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback」,旨在用人类偏好把对话模型调成既「有益」又「无害」。数据集由成对的回复比较样本组成(每条含 chosen / rejected),覆盖 Helpfulness(含 base / rejection-sampled / online 三个来源)与 Harmlessness(base)两类。数据格式简单、直接,不建议直接做 SFT,适用于 RLHF/DPO 训练、奖励模型构建、响应质量对比评测等场景。红队对话数据(非 PM Data):相关论文成果为「Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned」,旨在研究攻击类型与危害表现、帮助降低模型有害性。数据集由红队完整对话转录及元数据组成,含 transcript 、 min_harmlessness_score_transcript 、 model_type 、 rating 、 task_description 、 tags 等。数据贴近真实红队过程、标注丰富,不用于偏好建模或 SFT,适用于安全对齐分析、红队评测、危害类型归纳与策略改进等场景。

附件列表

HH-RLHF.rar

大小:1.55 KB

只需: 101 个论坛币  马上下载

磁力链接,90.35M

本附件包括:

  • HH-RLHF.torrent

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群