全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
596 0
2022-06-22
每家公司都希望让人工智能 (AI) 发挥作用。它的潜力似乎是无限的。弹指之间就能获得大企业的利益。

但随后现实袭来:人工智能可以提供的价值并不容易。即使是人工智能早期的先驱 IBM(或者如果你想将它追溯到 1940 年代和 50 年代的新生,那么它就是人工智能的重生),也曾与它的沃森人工智能平台,最广为人知的一个围绕着医疗保健部门的技术在改善癌症护理方面的失败而展开。在这一点上似乎有相当广泛的共识:

大多数组织在其 AI 项目的某些方面都失败了,其中四分之一的组织报告了高达 50% 的失败率。 最近的 IDC 调查. 缺乏熟练的员工和不切实际的期望被认为是失败的主要原因。
福瑞斯特研究 指出数据质量问题是最大的 AI 项目挑战之一,并指出通常缺乏对机器学习模型需要哪些数据以及如何准备这些数据的理解。
Gartner 去年底进行的一项调查显示,人工智能现在是首席信息官最常提及的技术,但副总裁兼分析师安迪罗塞尔-琼斯指出他们可能会受到“非理性繁荣”的影响。在其报告中AI 和 ML 开发策略Gartner 表示,阻碍受访者采用人工智能的最大挑战是缺乏技能 (56%)、了解人工智能用例 (42%) 以及对数据范围或质量的担忧 (34%)。
在华尔街日报的万物未来节IBM 高级副总裁 Arvind Krishna 表示,人工智能项目中大约 80% 的工作是收集和准备数据。他说,有些公司只是没有为与之相关的成本和工作做好准备。

“总体而言,在 IT 领域,大约 50% 的项目要么延迟运行、超出预算要么停止。我猜人工智能并没有太大的不同。”

Rahul Singhal,首席产品官创新数据,一家数据提取、机器学习和数据丰富供应商,了解企业面临的挑战。他说,企业低估了对干净注释数据的需求。这反映在市场上数据准备正在崛起。它在 2017 年的价值为 17.8 亿美元,预计到 2023 年将达到 60.6 亿美元。   

数据质量的内容专业知识

“这是一个非常大的市场机会,”Singhal 说。Innodata 是该领域的供应商之一,该领域还包括 Amazon Turk、Appen、Figure 8 和 Lionbridge。Innodata 从事跨多个领域的非结构化内容注释业务已有 25 年的历史,并在员工中拥有主题专家(律师、药剂师等),从事医疗保健、制药、金融服务和 B2B 出版领域的项目。

“当您为客户创建数字产品时,您正在经历理解和注释内容的生命周期,”他说。“您需要专业知识才能成功构建 AI 应用程序。”

他认为,当公司使用使用众包模式的数据准备提供商来完成这项工作时,他们不一定会获得这种专业知识。该模型取决于公司拥有自己严格的流程和质量控制,以降低注释数据不佳的风险。“我们不使用人群。”

教机器

一个健壮的本体准确的预测需要大量的训练数据。“你必须教机器和算法来理解内容和上下文,”Singhal 说。

为了能够构建和部署真正的 AI 应用程序,公司需要能够持续查看来自机器的反馈的托管服务 AI 应用程序。

“它正在纠正它。它为机器提供了缩回的反馈循环,然后允许您改进机器学习模型,”他说。“它需要数年时间才能使许多这些过程自动化,而这一切都始于拥有令人惊叹的、高质量的带注释的真实数据。”

他说,没有一种万能的“工作台”注释工具。公司注释 SCC(合同特殊条件)法律文件所需的内容与注释图像所需的内容大不相同。例如,Innodata 的一位客户想要对大量车牌进行注释,因此 Innodata 必须使用视频图像。该公司不得不建造一个工作台来同时拍摄 3000 张图像。这要求其工程师构建一个工作台来支持高可扩展性和快速加载图像。

创新数据正在寻求为复杂文件添加注释的市场,例如在获得许可使用后监测医疗药物效果的制药共同警惕性。在金融服务领域,它支持具有合同元数据提取需求的客户。对于人寿保险,它正在应用机器学习模型来查看医疗保健数据。  

      相关帖子DA内容精选
  • 大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群