如何通过深度学习进行语音识别

843

收藏 2020-11-24

如何通过深度学习进行语音识别
语音识别正在入侵我们的生活。它内置在我们的手机，游戏机和智能手表中。它甚至使我们的房屋自动化。仅需$ 50，您就可以大声说出一个Amazon Echo Dot（一个魔术盒，让您可以订购披萨，获取天气预报或什至购买垃圾袋）：
Alexa，点一个大比萨！
Echo Dot在这个假日季节非常受欢迎，以至于亚马逊似乎无法保留它们的库存！
但是语音识别已经存在了几十年，那么为什么它现在才成为主流呢？原因是深度学习最终使语音识别足够精确，从而可以在精心控制的环境之外使用。
Ng 长期以来一直预测，随着语音识别的准确率从95％提高到99％，它将成为我们与计算机交互的主要方式。这个想法是4％的准确度差距是令人讨厌的不可靠和难以置信的有用之间的差异。多亏了深度学习，我们终于达到了顶峰。
让我们学习如何通过深度学习进行语音识别！
机器学习并不总是一个黑匣子
如果您知道神经机器翻译是如何工作的，您可能会猜到我们可以将录音简单地馈送到神经网络中并对其进行训练以产生文本：
那是深度学习中语音识别的圣杯，但是我们还没有到那儿（至少在我写这篇文章的时候-我敢打赌我们会在几年内）。
最大的问题是语音速度变化。一个人可能会说“你好！” 很快，另一个人可能会说“ heeeelllllllllllllooooo！” 速度非常慢，生成的声音文件更长，包含更多数据。这两个声音文件都应被识别为完全相同的文本-“你好！” 自动将各种长度的音频文件与固定长度的文本对齐是非常困难的。
要解决此问题，除了深度神经网络之外，我们还必须使用一些特殊的技巧和额外的处理。
您将在本文中找到：
-将声音转换为比特
数字采样的快速侧边栏
-预处理采样的声音数据
-识别短声音中的字符，请
稍等片刻！
-我可以建立自己的语音识别系统吗？
题库

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

栏目导航

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群