语音语义发展历史分析

2650

收藏 2016-08-11

20世纪50年代到70年代，在语音识别领域由规则主导，瓶颈无法破除发展缓慢，IBM几百个词70%的识别度；20世纪70年代到20世纪末，发展迅速，统计与规则角力，并逐步解决语音识别、词性分析、句法分析问题；21世纪初，由于计算能力增强语音技术有了重大突破，2006年至今，深度学习继续在语音识别领域完善。
图1：语音语义发展历史

自动语音识别技术（Automatic Speech Recognition）是一种将人的语音转换为文本的技术。由于语音信号的多样性和复杂性，语音识别系统只能在一定的限制条件下获得满意的性能，或者说只能应用于某些特定的场合。自动语音识别的总体过程是：语音输入，然后前处理得到数字信号，再进行声学特征的提取，进行模式匹配，处理后得到结果。技术流程是：先对静音切除，再进行声学特征提取，然后对其进行分帧，得到多维向量表达的若干帧，再把帧识别为状态（难点），每三个状态合组合为1个音素，再把因素组合为单词。
图2：自动语音识别流程

国际上公认衡量自动语音水平的参数为语音识别错误率（WER），人类的语音识别错误率为4%，目前商用语音系统的WER在15%左右，达到了实用门槛。国际上占据全球市场60%份额的第一大语音公司Nuance为包括苹果在内的财富100强公司的三分之二的公司提供语音技术服务，其WER在10%左右。Google依靠强大的深度学习，在2015年率先将WER降低至8%。国内语音实力最强的科大讯飞也达到了15%的使用门槛，针对会议演讲等场景达到5%以上的识别率，特别在针对中文部分方言也达到了实用门槛。
图3：语音识别错误率比较