全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
602 0
2020-11-06
用于计算机视觉的顶级云API的比较
什么是计算机视觉?
如今,计算机视觉(CV)是机器学习中使用最广泛的维度之一。计算机视觉的主要任务是理解图像的内容。它几乎用于现代技术的所有领域,例如图像和视频分类,内容过滤,安全性,面部检测,甚至驻留在智能手机的相机应用程序中。
计算机视觉领域在不断发展。建立视觉识别模型既困难又费时。幸运的是,市场上有很多现成的解决方案。它们由Google,Microsoft,IBM,Amazon等多家公司开发。这些解决方案即以API的形式提供,您可以将它们与您的应用程序集成在一起。
在本文中,我们将对这些Cloud API功能进行简要概述。
谷歌
Google是机器学习领域最著名的公司之一。它提供许多云计算服务作为计算机视觉的API。该 愿景API 可以帮助您的应用程序,以了解什么是形象,内容为已知类别进行分类,并提供了标签。
它还能够检测地标-例如建筑物,纪念碑,自然结构或徽标,并执行支持多种语言的字符识别。面部检测可以检测带有人的情绪和头饰的面部。不幸的是,不支持面部识别。最重要的是,您可以使用API??在网络上搜索相似的图片并过滤露骨或暴力内容。
Google还保证 Video Intelligence 可以执行视频分析,分类和标记。这允许基于提取的元数据搜索视频。还可以检测场景的变化并过滤显式内容。
所有这些功能都可以通过REST API获得,以便轻松集成。
微软
Microsoft Azure是另一种云计算服务。Azure提供了几种计算机视觉服务。它们包装为不同的API- 用于通用CV任务的Computer Vision API , 用于面部检测和识别的Face API , 用于过滤的Content Moderator ,以及其他一些仍处于“预览”状态的API。让我们仔细看看。
通过提供全面的标签列表并尝试构建场景的自然语言描述,Computer Vision API可以对图像内容进行分类。而且,API能够识别名人和地标。
另一个功能是打印文本的光学字符识别(OCR)和作为预览。还提供了手写文本的OCR,但仅适用于英语。
Face API用于检测图像中的面孔,并检索矩形和面部特征,例如情绪状态,性别,年龄,面部毛发,微笑分数和面部标志。人脸识别是另一项功能,可帮助了解该人与数据库匹配的人。此功能可能对安全性很有用。另一个类似于人脸查找,即查找看起来与输入人脸相似的人脸列表。
内容主持人可用于视频和图像过滤。使用基于机器学习的分类器和光学字符识别来过滤不需要的内容。
该 视频索引 和 定制视觉服务 尚未提供的预览。视频索引器用于从视频中提取见解。它具有情感分析,关键字和元数据提取以及人员检测的功能。Custom Vision Service允许为特定用例创建经过微调的计算机视觉模型。这项服务能够进行增量学习-您提供的每张图片都会随着时间的推移改善您的模型。
亚马孙
在 亚马逊Rekognition 为亚马逊开发的计算机视觉服务。它的核心是深度学习,并且可以与其他Amazon服务无缝集成。它作为图像和视频的API提供。识别可以了解场景中有哪些物体和人物以及正在发生的事情。它可以用作成人内容的内容过滤器。另外,它可以理解图像中的文字。
Rekognition的能力之一是发现,识别和识别人的能力。它能够使用脸部图像的私人数据集准确地识别照片和视频中的人。或者,它可以识别您图像中的名人。它也能够分析情绪,年龄,眼睛和头饰的存在,面部毛发和其他特征。对于视频,可以跟踪这些功能随时间的变化。借助Rekognition,即使他们离开相机或离开现场,他们也可以跟踪视频中的人物。
克拉里菲
Clarifai 是另一家相对较年轻的公司,提供“计算机视觉”服务。Clarifai仅与具有许多可用功能的CV合作。每个特定任务都由相应的模型解决。但是,某些模型处于Beta状态,并且会不断改进。例如,有一个模型可以检测图像中的人脸。对于以下每个参数,都有一个特殊的模型:年龄,性别,种族预测或名人识别。
通用型号是最通用的。它能够理解图像中的当前对象,主题,甚至更多。它可以用于任何图像分析。您也可以建立自己的模型,并在图像上训练模型以获得最佳效果。
Clarifai还提供了一些狭窄使用的模型,例如模式识别,婚礼相关,旅行相关模型,主色检测模型。有一个用于识别布料和配件的模型,另一个用于食品识别以及徽标或商标名称的模型。
有两种用于嵌入面孔或普通物品的模型。它们分别基于人脸检测和常规模型。嵌入允许对机器学习过程进行低级控制。
还有一个模型可以检查图像是否包含不安全的内容,例如毒品或裸露内容。
IBM Watson视觉识别
IBM Watson Visual Recognition 并没有捆绑太多的模型,但是它允许构建自定义模型。默认模型是一种通用模型,用于了解图像中的对象,识别颜色主题。另一个用于面部检测(不识别),一个用于食品检测,OCR目前处于私用Beta版。该API还允许您以Core ML(Apple iOS)兼容格式导出模型。
凯罗斯
Kairos 完全与面部检测有关。借助其产品,可以检测照片或视频中的面部,以识别和验证人员。通过Kairos,您可以检测情绪状态,年龄段(例如,儿童,年轻人,成人,老人),一个人的性别,诸如眼睛,眉毛的面部特征等。
Kairos可作为Cloud API或SDK用于脱机集成。
整体比较
为了方便起见,我们准备了一张表格,其中对用于计算机视觉的最受欢迎的Cloud API进行了快速的总体比较,突出了它们的主要功能。
更新时间:2018年8月
结论
市场上有许多用于计算机视觉的不同云API。另外,该领域正在快速发展。在本文中,我们简要概述了各种提供程序。乍一看,它们都提供了相当相似的功能,但有些人则将重点放在人脸识别(如Kairos)或构建自定义模型(如IBM和Azure)上。
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群