StepEval Audio Paralinguistic 副语言理解评估数据集

收藏 2025-10-30

StepEval Audio Paralinguistic 是由 StepFun AI 团队于 2025 年发布的一个音频副语言理解评估数据集，相关论文为「Step-Audio 2 Technical Report」，旨在评估 AI 模型在语音中理解副语言信息（如性别、年龄、语调、情绪等）方面的能力。

该数据集由 550 个语音样本组成，均匀分布在 11 个任务维度上：包括性别（gender）、年龄（age）、音色（timbre）、情绪（emotion）、音高（pitch）、节奏（rhythm）、语速（speed）、说话风格（style）、人声活动（vocal）、场景（scenario）与事件类型（event）。其中前 8 项任务基于 400 条公开播客中的中文语音片段采样，后三项任务则分别从 AudioSet（事件）、 CochlScene（环境场景）、 VocalSound（人声类声效）中各采样 50 条音频。所有样本时长均控制在 30 秒以内，统一重采样为 24 kHz，并由专业团队进行自然语言标注。

附件列表

StepEval-Audio-Paralinguistic.rar