全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管文库(原现金交易版)
13 0
2026-03-05

Free Spoken Digit Dataset 数字识别音频数据集_8kHz 采样率语音数据集



Free Spoken Digit DatasetFSDD)是一款适用于语音识别、数字识别相关研究与开发的开源音频语音数据集,数据集以 8kHz 采样率的 wav 格式文件为主,所有数字语音录音均经过专业裁剪,最大程度缩减开头与结尾的沉默时长,数据可用性高,且会随社区贡献持续更新扩充。



截至 2024 7 月,FSDD 数字识别音频数据集包含 6 位不同演讲者的纯英语发音录音,累计 3000 条有效语音数据,平均每位演讲者完成 500 条数字语音录制,数据量充足且维度统一,为相关算法训练、模型测试提供标准化数据支撑。



该数据集的文件命名遵循 **{digitLabel}{speakerName}{index}.wav** 固定格式,例如 7_jackson_32.wav,即代表演讲者 jackson 录制的数字 7 的第 32 个录音,文件命名逻辑清晰,便于研究人员快速检索、分类与使用。



FSDD 数据集适用途径

学术研究场景:可作为语音识别、数字音频识别、声纹特征分析等声学相关学科的研究实验数据集,支撑学术论文撰写、课题研究开展;

算法模型开发:适用于机器学习、深度学习领域的数字语音识别算法训练、模型验证与优化,为相关 AI 模型开发提供基础数据;

教学实训使用:可作为高校计算机、人工智能、声学工程等专业的教学实训数据,用于语音处理相关课程的实践教学。



FSDD 数据集社区贡献规范

FSDD 为开放式音频数据集,鼓励全球开发者、研究人员贡献自制数字语音录音,贡献的录音需满足单声道、8kHz 采样率、wav 文件格式,且需对录音进行裁剪,最小化沉默部分,保持与现有数据集的格式统一。




二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群