20世纪50年代到70年代,在语音识别领域由规则主导,瓶颈无法破除发展缓慢,IBM几百个词70%的识别度;20世纪70年代到20世纪末,发展迅速,统计与规则角力,并逐步解决语音识别、词性分析、句法分析问题;21世纪初,由于计算能力增强语音技术有了重大突破,2006年至今,深度学习继续在语音识别领域完善。
图1:语音语义发展历史

自动语音识别技术(Automatic Speech Recognition)是一种将人的语音转换为文本的技术。由于语音信号的多样性和复杂性,语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别的总体过程是:语音输入,然后前处理得到数字信号,再进行声学特征的提取,进行模式匹配,处理后得到结果。技术流程是:先对静音切除,再进行声学特征提取,然后对其进行分帧,得到多维向量表达的若干帧,再把帧识别为状态(难点),每三个状态合组合为1个音素,再把因素组合为单词。
图2:自动语音识别流程

国际上公认衡量自动语音水平的参数为语音识别错误率(WER),人类的语音识别错误率为4%,目前商用语音系统的WER在15%左右,达到了实用门槛。国际上占据全球市场60%份额的第一大语音公司Nuance为包括苹果在内的财富100强公司的三分之二的公司提供语音技术服务,其WER在10%左右。Google依靠强大的深度学习,在2015年率先将WER降低至8%。国内语音实力最强的科大讯飞也达到了15%的使用门槛,针对会议演讲等场景达到5%以上的识别率,特别在针对中文部分方言也达到了实用门槛。
图3:语音识别错误率比较
