该统计数据显示了企业 AI 采用率的提高。然而,要在您的业务中完全利用 AI 的力量,您需要构建和部署多个模型。
在本文中,我们将讨论 AI 模型开发的步骤。我们还将阐明 AI 模型开发面临的挑战,并讨论如何加速企业 AI 的采用。
AI 模型开发生命周期
AI 模型开发涉及多个相互关联的阶段。下面的框图将帮助您了解每一步。
6130761a5a7be322bb3438ca_AI-model-dev
我们现在将详细分解每个块。
第 1 步:识别业务问题
deeplearning.ai 的创始人 Andrew Ng 总是更喜欢将 AI 应用程序视为一个业务问题。他建议不要问如何改进你的
人工智能,而是问如何改进你的业务。
因此,在模型开发的第一步中,定义您要解决的业务问题。在这个阶段,您需要提出以下问题。
你期望从这个过程中得到什么结果?
正在使用哪些流程来解决此问题?
您如何看待 AI 改进当前流程?
哪些 KPI 可以帮助您跟踪进度?
需要哪些资源?
您如何将问题分解为迭代冲刺?
一旦您对上述问题有了答案,您就可以确定如何使用 AI 解决问题。通常,您的业务问题可能属于以下类别之一。
分类:顾名思义,分类可以帮助您将某物分类为 A 类或 B 类。您也可以使用它来分类两种以上的类型(称为多类分类)。
回归:回归可帮助您预测已定义参数的确定数字。例如,预测未来特定时期的 COVID-19 病例数,预测假期期间对您的产品的需求等。
推荐:推荐分析过去的数据并识别模式。它可以推荐您在零售网站上的下一次购买、基于您喜欢的主题的视频等。
这些是您需要回答的一些基本问题。您可以根据您的业务目标在此处添加更多问题。但重点应该放在业务目标以及人工智能如何帮助实现这些目标上。
第 2 步:识别和收集数据
数据识别是人工智能模型开发中最重要的步骤之一。由于
机器学习模型仅与提供给它们的数据一样准确,因此识别正确的数据以确保模型的准确性和相关性变得至关重要。
在这个阶段,您将不得不提出以下问题:
解决业务问题需要哪些数据——客户数据、库存数据等。
需要多少数据?
你有足够的数据来构建模型吗?
您是否需要额外的数据来扩充当前数据?
数据是如何收集的以及存储在哪里?
你可以使用预先训练的数据吗?
除了这些问题之外,您还必须考虑您的模型是否会实时运行。如果您的模型要实时运行,您将需要创建数据管道来为模型提供数据。
您还必须考虑构建模型所需的数据形式。以下是使用数据的最常见格式。
结构化数据:数据将采用行和列的形式,如电子表格、客户数据库、库存数据库等。
非结构化数据:这种类型的数据不能放入行和列(或结构,因此得名)。示例包括图像、大量文本数据、视频等。
静态数据:这是不变的历史数据。考虑您的通话记录、以前的销售数据等。
流数据:这些数据不断变化,通常是实时的。示例包括您当前的网站访问者。
根据问题定义,您需要识别最相关的数据并使其可供模型访问。
第 3 步:准备数据
这一步是整个模型构建过程中最耗时的。数据科学家和机器学习工程师倾向于在这个阶段花费大约 80% 的 AI 模型开发时间。解释很简单——模型的准确性主要取决于数据质量。您将不得不在这里避免“垃圾进,垃圾出”的情况。
数据准备取决于您需要什么样的数据。上一步中收集的数据不必按照要求采用相同的形式、相同的质量或相同的数量。ML 工程师花费大量时间清理数据并将其转换为所需的格式。此步骤还涉及将数据分割成训练、测试和验证数据集。
在此阶段您需要考虑的一些事项包括:
将数据转换为所需的格式
清理数据集中的错误和不相关数据
如果数量较少,则增强和扩充数据集
第 4 步:模型构建和训练
在这一步,您已经收集了构建模型的所有要求。阶段已准备就绪,现在开始解决方案建模。
在这个阶段,ML 工程师定义模型的特征。这里要考虑的一些因素是:
使用相同的功能来训练和测试模型。一旦模型部署到现实世界中,这两个阶段的数据不一致会导致结果不准确。
考虑与主题专家合作。中小企业有能力指导您了解模型所需的功能。它们将帮助您减少重复模型的时间,并让您在创建准确模型方面领先一步。
警惕维度诅咒,它指的是使用可能与模型无关的多个特征。如果您使用了不必要的功能,那么模型的准确性就会下降。
一旦定义了特征,下一步就是选择最合适的算法。选择算法时要考虑模型的可解释性。您不希望最终得到一个预测和决策难以解释的模型。
在选择合适的算法并建立模型后,您必须使用训练数据对其进行测试。请记住,模型不会在一开始就给出预期的结果。您将不得不调整超参数、更改随机森林的树数或更改
神经网络中的层数。在这个阶段,您还可以使用预训练的模型并重用它们来构建新模型。
理想情况下,模型的每次迭代都应进行版本控制,以便您可以轻松监控其输出。
第 5 步:模型测试
您分别使用训练和验证数据集来训练和调整模型。但是,该模型在现实世界中部署时的行为大多会有所不同,这很好。
此步骤的主要目标是最小化模型在现实世界中部署时的行为变化。为此,使用所有三个数据集(训练、验证和测试)对模型进行了多次实验。
如果您的模型在训练数据上表现不佳,您将不得不改进模型。您可以通过选择更好的算法、提高数据质量或向模型提供更多数据来做到这一点。
如果您的模型在测试数据上表现不佳,则该模型可能无法扩展算法。当模型与有限数量的数据点过于紧密地拟合时,可能会出现过度拟合的问题。最好的解决方案是向模型添加更多数据。
此阶段涉及对模型进行多次实验,以发挥其最佳能力并最大程度地减少其在部署后所经历的变化。
第 6 步:模型部署
使用不同的数据集测试模型后,您必须使用步骤 1 中定义的业务参数验证模型性能。分析是否实现了 KPI 和模型的业务目标。如果不满足设定的参数,考虑改变模型或提高数据的质量和数量。
在满足所有定义的参数后,将模型部署到预期的基础架构中,例如云、边缘或本地环境。但是,在部署之前,您应该考虑以下几点:
确保您的工厂能够持续测量和监控模型性能
定义基线以衡量模型的未来迭代
不断迭代模型以利用不断变化的数据提高模型性能
关于模型治理的说明
模型治理不是 AI 模型生命周期中定义的步骤。但是有必要确保模型适应不断变化的环境,而不会使结果发生太多变化。
当模型部署在现实世界中时,提供给它的数据变得非常动态。除了数据之外,技术、业务目标或现实世界的剧烈变化(如大流行)可能也会发生变化。
在监控模型性能的同时,分析上述变化如何影响模型也很重要。因此,您将不得不重申该模型。考虑监控模型的以下参数:
与模型预定义精度的偏差
不规则的决定或预测
影响模型性能的数据漂移
请记住,模型部署只是 AI 模型生命周期的第一步。您将不得不不断迭代模型以跟上数据、技术和业务的变化。
下一步
上述步骤给出了构建 AI 模型的详细方法。然而,这些步骤并没有考虑到企业的两个关键方面——时间和人员。
如前所述,人工智能模型需要时间来开发。尽管部署模型的效率有所提高,但并非所有公司都能部署高效模型。大多数组织还拥有数量有限的数据科学家和机器学习工程师。此外,顺利的模型开发需要数据工程师、数据科学家、ML 工程师和 DevOps 工程师的共同努力。
考虑到所有这些因素,简单的解决方案将是聘请具有明确定义流程的人工智能专家来快速构建和部署模型。在 Attri,我们就是这样做的。
我们有一个定义明确的过程来构建涉及上述所有步骤的模型。我们还创建了一个 RACI 图表,其中定义了每个人的角色。这有助于我们加快模型构建过程。此外,除了模型移交之外,我们还向客户提供知识转移,以便他们可以独立管理、监控和创建已部署模型的多次迭代。
每个部署的模型都附带性能报告和 SOP,以增强我们的客户劳动力并在他们的企业中实现人工智能的民主化。
相关帖子DA内容精选
- 大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
|