Free Spoken Digit Dataset 数字识别音频数据集_8kHz 采样率语音数据集
Free Spoken Digit Dataset(FSDD)是一款适用于语音识别、数字识别相关研究与开发的开源音频语音数据集,数据集以 8kHz 采样率的 wav 格式文件为主,所有数字语音录音均经过专业裁剪,最大程度缩减开头与结尾的沉默时长,数据可用性高,且会随社区贡献持续更新扩充。
截至 2024 年 7 月,FSDD 数字识别音频数据集包含 6 位不同演讲者的纯英语发音录音,累计 3000 条有效语音数据,平均每位演讲者完成 500 条数字语音录制,数据量充足且维度统一,为相关算法训练、模型测试提供标准化数据支撑。
该数据集的文件命名遵循 **{digitLabel}{speakerName}{index}.wav** 固定格式,例如 7_jackson_32.wav,即代表演讲者 jackson 录制的数字 7 的第 32 个录音,文件命名逻辑清晰,便于研究人员快速检索、分类与使用。
FSDD 数据集适用途径
学术研究场景:可作为语音识别、数字音频识别、声纹特征分析等声学相关学科的研究实验数据集,支撑学术论文撰写、课题研究开展;
算法模型开发:适用于机器学习、深度学习领域的数字语音识别算法训练、模型验证与优化,为相关 AI 模型开发提供基础数据;
教学实训使用:可作为高校计算机、人工智能、声学工程等专业的教学实训数据,用于语音处理相关课程的实践教学。
FSDD 数据集社区贡献规范
FSDD 为开放式音频数据集,鼓励全球开发者、研究人员贡献自制数字语音录音,贡献的录音需满足单声道、8kHz 采样率、wav 文件格式,且需对录音进行裁剪,最小化沉默部分,保持与现有数据集的格式统一。