顶级语音处理API的比较
语音处理是机器学习中非常流行的领域。在将人类语音转换为文本并将文本转换为语音方面存在巨大的需求。对于在不同地方(商店,交通,旅馆等)发展自助服务尤为重要。机器取代了越来越多的人力,这些机器应该能够使用我们的语言与我们沟通。这就是为什么语音识别是人工智能和
机器学习的一个重要视角和领域。
如今,许多大公司提供用于执行不同机器学习任务的API。语音识别也不例外。您不必成为自然语言处理方面的专家即可使用这些API。通常,它们提供方便的界面。您需要做的就是将包含所需内容的HTTP请求发送到API的服务器。然后,您将收到包含已完成任务的响应。当您不需要特殊的东西时,这种方法很有用。换句话说,如果您的问题是标准问题且众所周知。这种方式的另一个优点是,您可以节省宝贵的资源,例如时间和金钱。
但是,在很多情况下您不能使用API??,而需要从头开始开发语音识别系统。这种方法相当复杂,需要大量的精力和资源,但是结果是,您可以创建一个理想地与您的需求兼容的系统。此外,如果您自己构建算法,则可以提高结果的质量。无论如何,很高兴了解API。您可以了解每个API可以做什么,它们有什么优缺点等等。因此,您将能够检测到何时应该使用API??(以及什么API)以及何时应该考虑自己的系统。在本文中,我们想比较可以与人类语音配合使用的最流行的API。
语音处理中有两个主要任务。第一个是将语音转换为文本。第二是将文本转换为人类语音。这是一些流行的语音处理API的列表:
Google Cloud Speech API
IBM Watson语音转文本
IBM Watson文字转语音
Microsoft Azure必应语音API
亚马逊转录
亚马逊波利
还有一些其他鲜为人知的产品可以与语音配合使用:
VoxSigma API
Twilio语音识别
语言学ASR
Nexmo语音API
我们将描述每个API的一般方面,然后在表中比较它们的主要功能。
Google Cloud Speech API
Google Cloud Speech API 是Google Cloud基础架构的一部分。它允许将人类语音转换为文本。该API支持110多种语言。系统以提供可能被识别的单词列表的形式支持自定义(如果您想在可能限制单词列表的某些设备或其他情况下使用语音识别,则此功能特别有用)。API可以在批处理和实时模式下工作。它对于音频中的侧噪声是稳定的。对于某些语言,可以使用过滤不当单词的过滤器。该系统是使用深度神经网络构建的,可以随时间进行改进。您要处理的文件可以直接输入API或存储在Google Cloud Storage中。
价格灵活。每个用户最多可以免费使用60分钟的音频。如果您要处理60分钟以上,则应每15秒支付0.006 USD。有趣的是,每月的音频总容量限制为一百万分钟。
IBM Watson语音转文本
IBM Watson语音转文本 是IBM Watson提供的一项服务,可以将人类语音转换为文本。IBM Watson不仅支持针对特定单词词典的定制,还支持针对特定声学条件的定制。因此,您可以使系统适应计划使用它的环境。IBM Watson Speech to Text的主要缺陷是支持的语言很少。此外,自定义模型可用于更少的语言。目前,beta版中提供了诸如关键字查找和演讲者标记之类的功能。当将它们与主版本合并时,可以识别英语,西班牙语和日语的不同说话者。关键字搜索允许直接从语音中检测用户定义的字符串。IBM Watson语音转换为文本中可用的其他有用功能包括单词替代(测试版),单词置信度,单词时间戳,亵渎过滤,电话号码,日期,货币等的智能格式设置(测试版)。您可以在文档中熟悉受支持的音频文件格式。
对服务的访问级别分为三个级别。标准级别提供每月免费的前1000分钟处理音频免费访问。然后,使用灵活的每分钟价格。它们取决于您要处理的分钟数(分层定价)。如果您要使用自定义模型,则除了标准级别的价格外,您还必须支付0.03美元。要使用高级级别,您应该联系IBM同意细节。
IBM Watson文字转语音
与语音转文本任务相似,IBM Watson提供了一种用于执行文本转语音任务的服务。 IBM Watson文本到语音 工具非常适合此任务。
系统从输入文本中生成高质量的音频文件。它可以识别一些缩写和数字。例如,当其在文本中遇到“ USD”缩写时,它可以发音为“ United States Dollars”。API可以检测句子的音调(例如,问题)。您可以选择声音的表现力(GoodNews,道歉,不确定性)。另外,还有诸如年轻,柔弱,男性,女性的声音。但是,表达性和不同类型的声音目前仅适用于英语。单词计时功能允许同步文本流和语音伴随。该服务可以产生不同格式的音频文件。您可以在文档中阅读有关受支持格式的更多信息。
定价取决于使用水平。如果您需要高级级别,则应联系IBM以就价格和用法的详细信息达成协议。如果使用标准级别已足够,则条件如下。每月处理的前100万个字符是免费的。如果您需要处理更多字符,则每1000个字符需要支付0.02 USD。所有语言和语音均在“标准”级别可用。
Microsoft Azure必应语音API
Microsoft Azure Bing语音API 是Microsoft Azure云服务的组件,允许同时解决两项任务:语音到文本转换以及文本到语音转换。
Azure Bing语音API中的语音到文本任务允许实时处理,自定义,文本格式,亵渎过滤,文本规范化。它还支持不同的场景(说话的条件),例如互动,对话或听写。可以与Azure LUIS集成。Azure LUIS允许从文本以及主要实体中提取意图。
文本到语音功能允许调整不同的语音参数:性别,音量,音调,发音,语速,韵律轮廓。系统可以以特定方式检测和处理某些单词。例如,它可以识别以浮点数表示的金额并将其转换为存在“美分”的单词。
如果您想每月执行多达5000笔交易,则可以免费使用此API。如果您需要更多,则每1000笔交易应支付4美元。
亚马逊转录
Amazon Transcribe 是Amazon Web Services基础架构的一部分。您可以分析存储在Amazon S3服务中的音频文档,并从音频中获取文本。
Amazon Transcribe可以添加标点符号和文本格式。此服务提供的另一个有价值的功能是对电话音频的支持。这是因为电话交谈中的音频质量通常较低。因此,Amazon Transcribe的开发人员认为,他们必须以特定方式处理这种类型的音频。系统为文本中的每个单词添加时间戳。因此,您将能够将文本中的每个单词与音频文件中的相应位置进行匹配。期望该API能够很快识别出多个说话者并在文本中标记他们的声音。创建自定义单词也应在短时间内可用。用户将能够显式添加例如其产品名称或其他一些特定的单词。
价格有免费套餐:您可以在注册后的前12个月内免费使用该服务(每月最多60分钟的音频)。在此期间之后,您需要支付每秒0.0004 USD的处理音频。
亚马逊波利
Amazon Polly 是一项允许以批处理和实时模式进行文本到语音转换的服务。它也是Amazon Web Services基础架构的一部分。
Amazon Polly不仅可以将文本转换为语音,还可以调整某些语音参数。例如,您可以设置不同的声音(性别),音量,发音,讲话速度,音调和其他一些属性。
定价是灵活的。免费套餐在最初的12个月内可用,但是每月您最多可以处理500万个字符。现收现付模型是一种替代方案。每处理100万个字符,您将需要支付4美元。
VoxSigma API
用于语音到文本转换的VoxSigma API是Vocapia Research公司的产品。该公司专门从事语音和语言技术领域。VoxSigma API不仅可以将输入的语音转换为文本,还可以执行语言识别和语音文本对齐。API的其他有趣功能是,它可以向输出文本添加标点符号,计算输出的置信度得分。此外,VoxSigma API可以以独特的方式处理数字实体和一些其他实体(例如货币)。可以自定义可用的语言模型,但是为此,您必须联系公司并直接与他们联系。
该公司提出了几个使用计划。最受欢迎的方法是随用随付。根据此计划,您将必须每分钟支付0.01 USD(或EUR)。有趣的是,它们仅考虑输入音频上存在某些语音的位置。换句话说,如果您输入的音频中包含一些静默位置,则在计算总成本时会扣除这些位置的持续时间。也有免费试用期,但为此,您需要直接与公司联系。
Twilio语音识别
Twilio语音识别 是Twilio Flex平台的一部分。这是具有全栈可编程性的联络中心API。也许由于这不是一个独立的应用程序,所以Twilio语音识别所提供的功能不如其他语音识别API那么多。它提供了实时模式和亵渎过滤。因此,例如,可以检测到淫秽语言中的某些单词,并且星号将替换除第一个字符以外的所有字符。当联系中心使用时,它确实很有用。
该服务可以在按需付费的条件下使用。每处理15秒钟的音频,您需要支付0.02美元。
语言学ASR
Speechmatics ASR 是一组多项服务的集合,提供批处理和实时模式以将语音转换为文本。他们专注于英语,可以识别世界各地不同的英语方言。但是,也可以使用许多其他语言。Speechmatics ASR中可用的其他有用功能是转录中每个单词的置信度得分和计时信息,以及提供有关句子边界的信息。
使用云服务的价格为每1分钟处理音频0.06英镑。如果您购买的商品超过1000英镑,则可以享受折扣,并每分钟支付0.05英镑。
Nexmo语音API
Nexmo语音API 不是独立的API。您可以使用它进行呼叫。例如,如果您想呼叫某人,则可以使用Nexmo语音API将文本转换为语音。Nexmo是提供可编程通信服务的公司。可用功能集不是很丰富。它仅包括更改语音性别(男性或女性)以及更改语音口音的可能性。
价格取决于您要拨打电话的国家/地区,还取决于它是移动电话还是固定电话。定价是按分钟进行的。
现在,我们将比较每个任务的这些API的主要功能,因此您可以选择与您的需求兼容的东西。
结论
在本文中,我们分析了执行文本到语音和语音到文本任务的不同API的关键特征。使用这些现代技术,交流变得更加自然和富有成效。
为了简化选择完全满足您需求的API的过程,我们完成了一张表格,突出显示了此类API的关键功能。根据我们的经验,所有这些API在各种条件下都证明了其效率。希望我们的现场研究结果对您有所帮助,并且可以节省您的时间。
1