全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1316 0
2020-11-06
最有用的文本处理API的比较
如今,文本处理发展迅速,几家大公司提供其产品,可以成功地处理各种文本处理任务。如果您需要进行一些文本处理,则有2个可用选项。第一个是从头开始自行开发整个系统。这种方法被证明是非常耗时和耗资源的。另一方面,您可以使用由知名公司开发的已经可以访问的解决方案。此选项通常更快,更简单。不需要自然语言处理方面的特定知识或经验。了解文本处理的基本知识就足够了。同时,如果您需要排他性的东西,则最好实施自己的解决方案,而不是应用上述解决方案中的一种。
无论如何,用于文本处理的API非常流行且有用。因此,有必要比较不同的API,以了解它们的主要优缺点,以及何时最好使用一个API代替另一个API。让我们进行比较。
使用文本处理,数据分析人员面临以下任务:
关键字提取;
情绪分析;
文字分析;
实体识别;
翻译;
语言检测;
主题建模。
有几种高级API可以用来执行这些任务。其中:
亚马逊理解;
IBM Watson自然语言理解;
Microsoft Azure(文本分析API);
Google Cloud Natural Language;
Microsoft Azure(语言分析API)-测试版;
Google翻译API;
IBM Watson转换器;
亚马逊翻译;
Microsoft Azure翻译文本API。
我们将描述每个API的一般方面,然后在表中比较它们的主要功能。
亚马逊理解
Amazon Comprehend是Amazon Web Services基础架构的元素。它为诸如文本检测,情感分析,主题建模,关键词提取和实体识别之类的文本处理任务提供了高级API。
在检测到语言的情况下,Amazon Comprehend能够分析输入,然后返回主导语言和置信度分数。目前,该工具支持此任务的100多种语言。
提取关键短语可以增加对所分析文本的理解。Amazon Comprehend将返回所有检测到的关键短语的列表,以及每个关键词的置信度分数。
实体识别是将文本划分为实体的过程:人员,组织,位置,日期等。因此,对于每个实体,Amazon Comprehend都将定义其所属的组。像之前的任务一样,还返回置信度分数。
Amazon Comprehend中的情感分析可以检测文本的总体语气。它支持4种不同的情绪:正面,负面,中立和混合。分别返回每个情绪的置信度分数。
Amazon Comprehend中主题建模的结果可能会以2种形式呈现。根据第一个变体,它将显示每个文档的主题组,该主题组的主要关键字以及置信度。根据第二变体,示出了每个文档的主题组和文档中主要关键词的比例。这里的一个负面功能是,如果您想要执行主题建模,则应该将所有文档存储在Amazon S3中。
免费套餐计划最多可使用12个月。在这里,您只需为您正在使用的那些东西付费,并且仅支付所需的金额。因此,Amazon Comprehend在定价方面提供了极大的灵活性。该平台的缺点之一是仅支持英语和西班牙语。
不过,您可以使用Amazon Translate(AWS的另一项云服务)将源语言翻译成英语或西班牙语,然后使用Amazon Comprehend分析文本。
IBM Watson自然语言理解
IBM Watson是为企业提供人工智能相关服务的平台。 自然语言理解是此基础结构的一部分。它允许解决文本处理中的各种任务,例如实体识别,情感分析,关键词提取,主题建模和文本分析。作为辅助功能,支持语言检测(执行任何任务时,它都会返回源语言)。Watson自然语言理解提供的解决方案中有一些特殊之处。让我们更仔细地探索它们。
自然语言理解中的实体识别可以检测人,日期,地点,组织,地缘政治实体等。它不仅返回置信度得分,还返回实体的子类型。例如,当与著名人物打交道时,它不仅说这是一个人,而且还认识到这个人是演员,获奖者等等。同样,它甚至可以返回指向相应DBpedia资源的链接。
在自然语言理解的帮助下,情感分析还提供了其他有用的功能。它不仅可以定义情感是肯定的还是否定的,而且还可以针对每个检测到的实体,关键词短语甚至句子的预定目标片段分别返回情感。该服务还能够对整个文本以及单独检测到的关键字,实体或用户指定的目标短语进行情感识别(愤怒,厌恶,恐惧,喜悦或悲伤)。置信度分数也将返回。
这里的关键字提取非常简单和标准。它返回关键字以及每个检测到的关键字的置信度分数。
通过返回最多5个层次的文本类别来提供主题建模。而且,系统可以检测到1个以上的类别链。例如,如果您输入有关泰坦尼克号的文字,它可以返回一个与船舶有关的类别链,以及另一个与沉船有关的链。
《沃森自然语言理解》中的文本分析包括三个主要部分:在文本中查找关系,分析语义角色以及提取文本的元数据。系统可以确定实体之间的关系。对语义角色的分析允许检测句子中的主语-动作-宾语链。该平台可以从文本或HTML派生元数据(作者,标题,创建日期等)。
如今,IBM Watson自然语言理解支持13种语言。但是,某些功能尚不适用于特定语言。系统的价格取决于您需要处理的文本数量以及所使用的功能数量。因此,对于小型企业和大型公司而言,它都是相当灵活且负担得起的。
根据我们的经验,IBM Watson自然语言理解具有良好的性能。尽管有必要在多个任务中分析和过滤服务的结果,但总体而言,该平台运行良好。
Microsoft Azure(文本分析API)
文本分析API是Microsoft Azure基础结构的一个元素。它提出了一套相对较差的解决方案。它仅支持语言检测,关键短语提取和情感分析。每个功能都可以返回的积极结果数量有限。例如,没有关键短语提取的置信度得分,并且情绪可能为负也可能为正。但是,它支持多种语言。此外,该服务可在短时间内产生完美的结果。
有免费套餐和五个收费选项。每个级别之间的差异在于每年允许的最大交易次数。此外,不同地区的价格可能会有一些差异(有关更多详细信息,请参见 本页)。
Microsoft Azure(语言分析API预览)
语言分析API也是Microsoft Azure平台的一部分。
该产品尝试扩展功能有限的先前服务(Text Analytics API)的NLP功能。语言分析API提出了诸如句子分离,标记化,词性标记,句子分析中的关系之类的解决方案。
句子分离 是分析的第一步。语言分析API将文本拆分为句子,然后标记其中的单词。
POS标记 允许确定语音属于哪个词。该工具可以返回每个单词附近带有POS标签的输入句子。
我们认为,最有趣的是语言分析API能够构建句子中单词之间的连接模式。在此图中,您可以了解如何以及哪些单词相互连接。
由于该平台处于测试阶段,因此尚无价格。我们假设价格也将取决于系统内的交易数量。
Google Cloud自然语言
Google Cloud Natural Language是Google Cloud基础架构的一部分。它使您可以执行情感分析,实体识别,主题建模和文本分析等任务。
该系统中的情感分析允许检测句子的情感,或者检测整个文档以及句子中每个单词的情感。API返回的分数介于-1到1之间,其中-1表示非常负面的情绪,而1表示非常正面的情绪。此外,系统会检测情绪的大小(强度),该大小可以从0到无穷大变化。
实体识别检测文本中实体的类型,并将每个单词的重要性返回给整个文本文档(0到1的范围)。
主题建模允许构建文本类别的多个链以及每个链的置信度得分。
在Google Cloud Natural Language中,文本分析似乎非常有效。它可以找到句子中的关系,检测POS标签和单词的词缀。它还提供形态分析(数字,适当的时态,性别,人,单词的大小写等)。单词之间的关系可以以依赖树的形式表示。
Google Cloud Translation API
该仪器提供机器翻译和语言检测。将Google Cloud Translation API与您的服务集成非常简单。它使用深度神经网络进行翻译。这些网络不断完善。无需提取文本并将其发送到API,您可以发送整个HTML文档。
定价很灵活: 您按每个字符付费。翻译和语言检测有单独的价格。如果每月需要处理多达10亿个字符,则价格为每100万个字符20美元。如果您计划每月处理超过10亿个字符,则可以与支持部门联系以讨论可能的折扣。
IBM Watson转换器
IBM Watson基础结构包含用于神经机器翻译的IBM Watson转换器。该工具的主要缺点是受支持的语言数量有限。主要优点是它允许自定义。例如,如果您的文本包含特定术语,那么IBM Watson Translator可以适应该术语以正确使用它。它还包括一些经过预先训练的语言模型,例如新闻,对话等。但是,这些模型可用于更少的语言。
定价灵活。您可以选择4个可用级别(精简,标准,高级和高级)。每个新级别都提供更多功能,并允许处理更多字符,因此价格也相应更高。
亚马逊翻译
Amazon Translate是Amazon Web Services基础架构的元素。它允许实时快速翻译以及通过馈送整个文档(批处理)。该工具尚未开发完善,因此仅支持12种语言。它不可用于自定义,也不使用语言模型。但是,开发人员表示,该服务将在不久的将来得到改进,例如,将添加6种语言。
免费套餐在头12个月内可用。然后,您必须为每100万个处理过的字符支付15美元。
Microsoft Azure翻译文本API
Microsoft Azure翻译器文本API使用深层神经网络来提高机器翻译的质量。该方法不仅考虑相邻单词,而且考虑整个句子的上下文。该文档非常简单明了。该工具还允许用户自定义翻译。
微软建议5种不同的定价计划。每月处理少于一百万个字符是免费的。如果您选择S1计划,则每百万个字符必须支付10美元。S2,S3和S4计划具有固定价格和要处理的最大字符数。
我们整理了一张表格,比较了每个单独任务的这些API的主要特征。希望它将帮助您选择与您的需求兼容的API。
更新时间:2018年8月
结论
在本文中,我们重点介绍并分析了为文本处理开发的各种API的关键特性。尽管我们提到的所有API都追求几乎相同的目标,但它们往往具有与众不同的独特功能。为了选择适合您需求的最佳变体,您必须确定要使用的不同语言的数量。需要澄清的另一个重要问题是,您是要处理源文本还是要寻找有用的翻译工具。
这些API中的大多数提供了快速的性能,并且所有这些都是开发人员将来进行改进的主题。因此,您始终有一些开发服务的空间。最后,您应该考虑输出的质量以及可以接收到的时间段。
根据我们的经验,这些API已被证明非常有用,因此我们尝试以一种易于理解的方式列出它们的所有关键功能。但是,还有许多其他API应该值得关注,因此请在评论部分中分享您的收藏夹。
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群