AF-Chat 是由英伟达于 2025 年发布的一个音频对话文本数据集,相关论文成果为「Audio Flamingo 3: Advancing Audio Intelligence with Fully Open Large Audio Language Models」,旨在训练和评估对话生成模型。
该数据集包含约 7.5 万个多回合、多音频对话(平均 4.6 个片段和 6.2 个回合;范围为 2-8 个片段和 2-10 个回合),涵盖语音、环境声音和音乐。该数据集根据每个音频的源数据集划分为不同的子集(声音、音乐 4ALL 、百万歌曲数据集),仅提供文本问答注释,不提供音频文件本身。