全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1951 0
2022-05-06
在本文中,我描述了从头到尾管理机器学习过程所涉及的各个步骤。根据您工作的公司,您可能会或可能不会参与所有步骤。在较大的公司中,您通常专注于项目的一两个专业方面。在小公司中,您可能会参与所有步骤。这里的重点是大型项目,例如开发分类法,而不是临时或一次性分析。我还提到了所有相关人员,除了机器学习专业人士。


机器学习项目涉及的步骤

按时间顺序,这里是主要步骤。有时有必要识别过程中的错误并返回并从较早的步骤重新开始。这绝不是一个线性过程,而更像是反复试验。

1 . 定义我们想要跟踪的问题和指标(也称为特征)。评估可用数据(内部和第三方来源)或需要创建的数据库,以及优化存储和处理的数据库架构。讨论可供选择的云架构、数据量(潜在的未来扩展问题)和数据流。我们需要实时数据吗?多少可以安全外包?我们需要雇用一些员工吗?讨论成本、投资回报率、供应商和时间表。决策者和业务分析师参与其中,数据科学家和工程师可能会参与讨论。

2. 定义要执行的分析的目标和类型。我们可以将数据货币化吗?我们是否将使用这些数据进行细分、客户分析和更好的定位,优化定价或供应链等一些流程,进行欺诈检测、分类创建、增加销售额、竞争或营销情报,或改善用户体验例如通过推荐引擎或更好的搜索能力?最相关的目标是什么?谁将成为主要用户?

3 . 收集数据。评估谁可以访问数据(以及数据的哪些部分,例如汇总表与生命数据库),以及访问权限。这里还讨论了隐私和安全问题。IT 团队、法律团队和数据工程师通常会参与其中。还讨论了仪表板设计,目的是为最终用户(如决策者、产品或营销团队或客户)设计好的仪表板。

4.探索性数据分析。在这里,数据科学家的参与度更高,尽管此步骤应尽可能自动化。您需要检测丢失的数据以及如何处理它(使用插补方法)、识别异常值及其含义、总结和可视化数据、查找错误编码的数据和重复数据、找到相关性、执行初步分析、找到最佳预测特征和优化分箱技术(见本文第 4 节)。这可能会导致发现数​​据缺陷,并可能迫使您重新访问并从上一步重新开始,以解决任何重大问题。

5.真正的机器学习/建模步骤。此时,我们假设收集到的数据足够稳定,并且可以用于其原始目的。预测模型正在测试中,神经网络或其他算法/模型正在通过拟合优度测试和交叉验证进行训练。这些数据可用于各种分析,例如事后分析、欺诈检测或概念证明。算法被原型化、自动化并最终在生产模式中实施。输出数据存储在辅助表中以供进一步使用,例如电子邮件警报或填充仪表板。可以添加和集成外部数据源。至此,主要数据问题已得到修复。

6. 终端用户平台的创建。通常,它以仪表板的形式提供,具有可视化和汇总数据,可以以标准化格式甚至电子表格导出。这提供了决策者可以采取行动的洞察力。该平台可用于 A/B 测试。它也可以作为发送给决策者、客户或任何需要通知的人的电子邮件警报系统。

7. 维护。这些模型需要适应不断变化的数据、不断变化的模式或不断变化的核心指标定义。某些卫星数据库表必须更新,例如每六个月更新一次。也许需要一个能够存储更多数据的新平台,并且必须计划数据迁移。执行审计以保持系统健全。随着新数据源的收集,可能会引入新的指标。旧数据可能会被存档。现在我们应该对项目的长期收益(ROI)有一个很好的了解,哪些工作做得很好,哪些需要改进。

      相关帖子DA内容精选
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群