StepEval Audio Paralinguistic 是由 StepFun AI 团队于 2025 年发布的一个音频副语言理解评估数据集,相关论文为「Step-Audio 2 Technical Report」,旨在评估 AI 模型在语音中理解副语言信息(如性别、年龄、语调、情绪等)方面的能力。
该数据集由 550 个语音样本组成,均匀分布在 11 个任务维度 上:包括性别(gender)、年龄(age)、音色(timbre)、情绪(emotion)、音高(pitch)、节奏(rhythm)、语速(speed)、说话风格(style)、人声活动(vocal)、场景(scenario)与事件类型(event)。其中前 8 项任务基于 400 条公开播客中的中文语音片段采样,后三项任务则分别从 AudioSet(事件)、 CochlScene(环境场景)、 VocalSound(人声类声效)中各采样 50 条音频。所有样本时长均控制在 30 秒以内,统一重采样为 24 kHz,并由专业团队进行自然语言标注。