人工智能 (AI) 涵盖数据捕获、数据存储、数据准备和高级数据分析技术等广泛领域。换句话说,人工智能系统不仅限于数据管理的单一方面;相反,他们正越来越多地通过机器学习 (ML)、深度学习 (DL)、
神经网络等相关数据技术渗透到业务的各个方面,自然语言处理(NLP) 等。
由于系统、流程和任务的部分或完全自动化,组织每天都在经历一些业务变化——威胁要取代人工。ML 解决方案甚至开始证明它们比人类统计学家在数据准备方面,从而在高素质的智力任务中挑战人类。
一个Forrester 信息图表明数据质量(DQ)是在企业中成功实施
人工智能系统的最大挑战之一。根据 Forrester 分析师 Michele Goetz 的说法,企业缺乏明确的“对 ML 模型所需数据的理解”,因此在大多数情况下都难以进行数据准备。
机器学习时代数据质量的影响 表明在自助分析时代,数据质量比以前更加重要,因为普通业务用户无法检测和纠正损坏的数据。本文强调需要在企业数据战略框架内解决数据质量问题。
Forrester 的预测:人工智能和自动化的现状
最近的两份 Forrester 报告,表明企业意识到除非数据适合与先进的人工智能分析系统一起使用,否则他们无法实现数据驱动的期望。当前的数据挑战是数据“不干净”,因此 DQ 成为数据中心和数据服务提供商最关心的问题。
Forrester 将这种充满争议的 AI 嗡嗡声称为“AI 采用的非理性繁荣”。在大多数企业中,领导者和运营商都在苦苦挣扎数据质量差. 这个日益严重的问题大大降低了业务用户对数据驱动决策的信心。Forrester 警告说,即将到来的业务转型将是人工智能与机器人流程自动化 (RPA) 的结合,以创建一个完全数字化的工作环境。但是,匹配的人才在哪里才能理解来自这个数字化环境的所有大量数据呢?人工智能可以提供数字
数据分析师吗?
让我们真正了解人工智能OC & C Strategy Consultants 提供以下市场洞察:
86% 的 C-Suite 高管同意,他们错过了宝贵的机会,因为他们没有尽早采用 AI。
到 2025 年,50% 的工作将涉及 50% 的自动化,而到 2025 年,程序化媒体等特定行业将实现 100% 的自动化。
由于早期采用人工智能,全球业务的新进入者可能会超过他们的竞争对手。
全球人工智能支出非常可观:2018 年为 2190 亿美元,仅美国就占 910 亿美元。预计到 2025 年,人工智能支出将达到 4000 亿美元。
人工智能的采用与业务绩效之间存在直接联系——拥有人工智能的企业在所有领域都优于竞争对手。
谣言四起,到今年年底,聊天机器人、RPA 和智能系统将共同消除至少 20% 的服务台参与。人工智能洗涤也可能值得关注。第三个趋势是,大多数企业主正在与 AI 行业联盟而不是与他们当前的服务提供商合作升级他们现有的 AI 能力。
普华永道预测:数据质量是大多数人工智能系统面临的严峻挑战
根据一个结果普华永道在 2019 年 1 月进行的调查中,大多数大型企业现在意识到,尽管多年来积累了业务和客户数据,但由于数据质量差,他们在利用先进数据技术方面存在严重障碍。
在任何业务中,AI升级的主要目的都是为了降低成本和增加利润,但鉴于“当前数据储备的遗憾状态”,这无法实现。目前的统计数据表明,虽然 76% 的企业旨在利用他们的数据来提取业务价值,但只有 15% 的企业可以访问适当类型的数据来实现这一目标。
在上述调查中,企业高管提供的未能达到其数据分析目标的主要原因是数据孤岛、不良数据、数据合规问题、缺乏数据专家和系统不足。
与数据质量相关的问题总是出现在“历史数据”中,这些数据可能是从多个来源收集的,具有不一致的标准和不同程度的准确度。除了标准化数据格式外,普华永道分析师还表示,还必须积极解决数据隐私和数据安全问题,以遵守GDPR 等法规.
普华永道调查报告中包含的两个重要统计数据是:
德克萨斯大学的研究人员声称,数据可用性提高 10% 将使“年收入”增加超过 20 亿美元。
普华永道的调查受访者声称,数据清理将平均节省 33% 的成本,平均增加 31% 的收入。
由于数据质量差,企业准备中止人工智能项目
首席信息官报告大型企业过早地放弃了他们的人工智能项目。这些注重成本的企业主意识到,除非数据生态系统得到极大改善,否则他们的投资将被浪费。
例如,阿文德·克里希纳IBM 的云和认知软件高级副总裁提到,几乎 80% 的 AI 项目涉及的工作是数据准备,而且许多企业还没有准备好投资这种数据活动。在接受《华尔街日报》采访时,克里希纳提到,在实际使用任何人工智能系统来获取商业利益之前,花一整年时间“收集和清理数据”的前景对于大多数企业来说都太过分了。尽管 IBM 正在全球范围内开展约 20,000 多个 AI 项目,但数据质量问题正在严重阻碍 AI 系统实施的速度。
本案例研究 包括使用 ML 算法将现有产品和库存数据质量提高约 30% 的零售商的故事。数据管理专家认为使用智能机器学习算法未来将大大提高大数据集的质量。
坏到什么程度:坏数据对大数据人工智能项目
的影响智能数据集合站点对人工智能项目中使用的数据的当前状态进行了深入的了解,这表明以下因素导致了人工智能项目中与数据相关的问题:地理源点、数据输入渠道的多样性、不同的数据类型、从公开市场获得的数据、和数据隐私问题。
逐渐地,人工智能解决方案供应商和商业社区都意识到,并非每个数据源或每个数据类型都对 ML 算法进行训练有用或有益。此外,只有这么多数据才能“代表”整个数据集,而不是整个数据集。实际上,大多数数据集包含不准确、重复和缺失的数据,这最终会导致 IT 投资浪费并降低对数据驱动决策的信心。
必知:大数据常见的数据质量问题是什么以及如何处理 来自 KD Nugget 在数据量方面对大数据中的质量问题进行了出色的批判性审查,其中庞大的数据规模使质量测量成为一种近似游戏。在数据速度方面,数据流动和收集的巨大速度使得很难在实时应用程序中衡量数据质量。于是,“近实时”的概念浮出水面。
在数据多样性方面,多样化的数据类型无法通过任何标准化的数据质量指标来衡量,并且元数据播放在不同数据的质量评估中发挥重要作用。最后,就数据准确性而言,有偏见或不一致的数据通常会阻碍正确的数据质量评估。
在四个 V 中,数据真实性是大数据世界中定义最少、理解最少的。KD Nugget 帖子还包括一些在大数据项目中设置 DQ 目标的有用策略。
人工智能和机器学习在企业数据管理中日益重要的地位不容忽视。截至今天,每 10 个从事 AI 和 ML 项目的组织中有 8 个报告说他们的项目要么停滞不前,要么被中止。事实上,这些组织中有近 96% 都面临数据质量问题。
目前挑战内部 AI 项目的最大 DQ 问题是缺乏对 ML 训练数据的正确标记。纳撒尼尔·盖茨,首席执行官兼联合创始人军团AI 和 ML 的训练数据平台说:“将机器学习模型应用于生产的最大障碍是训练数据的数量和质量。”
机器学习在数据准备中的作用
手动数据质量评估、清理和重复数据删除过程已逐渐将接力棒传递给使用数据质量工具的基于规则的自动化。数据准备任务占用了数据经理和数据科学家一半以上的时间。数据质量过程的转变是显而易见的,从基于静态规则的方法到各个领域的动态、自适应、基于学习的 ML 方法。
ML 可帮助导出数据质量指数得分,以根据与预测参数值的偏差实时评估数据集的质量和可靠性。当数据被提炼并转化为我们可以实现其真正潜力的高质量状态时,数据的真正力量才能被释放。ML 有可能评估数据资产的质量、预测缺失值并提供清理建议,从而降低数据质量专家和科学家的复杂性和工作量。
对于物联网应用,与数据质量的斗争现在最为明显。借助端到端数据管理框架在智能时代取得成功 强调端到端的数据管理框架,以极大地增强业务决策。
人工智能可以在缺乏数据质量的情况下潜水指出在过去 10 年中,人工智能工具和流程已经改进到除了计算战术任务之外,机器“还可以做出战略决策并提高数据质量”。
事实上,必须先解决 DQ 问题,然后企业才能获得 AI 投资的回报。成功的人工智能系统需要高质量和大容量的数据。数据质量和数据治理可以最大化您的 AI 成果 断言 ML 算法的“预测效率”在很大程度上取决于用于此类模型的数据的种类、数量和质量。