Nemotron-Post-Training-Dataset-v2 后训练数据集

122

收藏 2025-11-26

Nemotron-Post-Training-Dataset-v2 是英伟达于 2025 年基于既有后训练语料扩展推出的版本。该数据集将 SFT 与 RL 数据扩展到五种目标语言（西/法/德/意/日），覆盖数学、代码、 STEM（科学、技术、工程和数学）、对话等场景，用于提升模型的推理与指令跟随能力；并提供基于元数据的筛选功能与典型子集示例。该数据集服务于 Nemotron-Nano-9B-v2 系列的发布与对齐研究，属于其公开的后训练语料之一，便于用户复现实验与进一步改进。相关论文成果为「NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model」。

附件列表

Nemotron-Post-Training-Dataset-v2.rar

大小:368.95 KB

只需: 201 个论坛币马上下载

磁力链接，36.78G

本附件包括：

Nemotron-Post-Training-Dataset-v2.torrent

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

栏目导航

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群