Free Spoken Digit Dataset 数字识别音频数据集_8kHz 采样率语音数据集

收藏 2026-03-05

Free Spoken Digit Dataset 数字识别音频数据集_8kHz 采样率语音数据集

Free Spoken Digit Dataset（FSDD）是一款适用于语音识别、数字识别相关研究与开发的开源音频语音数据集，数据集以 8kHz 采样率的 wav 格式文件为主，所有数字语音录音均经过专业裁剪，最大程度缩减开头与结尾的沉默时长，数据可用性高，且会随社区贡献持续更新扩充。

截至 2024 年 7 月，FSDD 数字识别音频数据集包含 6 位不同演讲者的纯英语发音录音，累计 3000 条有效语音数据，平均每位演讲者完成 500 条数字语音录制，数据量充足且维度统一，为相关算法训练、模型测试提供标准化数据支撑。

该数据集的文件命名遵循 **{digitLabel}{speakerName}{index}.wav** 固定格式，例如 7_jackson_32.wav，即代表演讲者 jackson 录制的数字 7 的第 32 个录音，文件命名逻辑清晰，便于研究人员快速检索、分类与使用。

FSDD 数据集适用途径

学术研究场景：可作为语音识别、数字音频识别、声纹特征分析等声学相关学科的研究实验数据集，支撑学术论文撰写、课题研究开展；

算法模型开发：适用于机器学习、深度学习领域的数字语音识别算法训练、模型验证与优化，为相关 AI 模型开发提供基础数据；

教学实训使用：可作为高校计算机、人工智能、声学工程等专业的教学实训数据，用于语音处理相关课程的实践教学。

FSDD 数据集社区贡献规范

FSDD 为开放式音频数据集，鼓励全球开发者、研究人员贡献自制数字语音录音，贡献的录音需满足单声道、8kHz 采样率、wav 文件格式，且需对录音进行裁剪，最小化沉默部分，保持与现有数据集的格式统一。

只需: RMB 10元马上下载

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

分享