全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
897 0
2020-09-14
全面的自动化机器学习
简介:   这是一个来自亚马逊研究人员的真正“零接触”,“设置并忘记它们”机器学习的建议。如果您拥有一个像电子零售一样瞬息万变的环境,并且有大量与购买者和产??品匹配的型号,那么您可以通过自动地使刷新周期更快,更准确地实现真正的成本节省和收入增加。此功能可能很快就会出现在您最喜欢的AML平台上。
我们是否有真正可以“置入并忘了”机器学习的未来?到目前为止,自动化机器学习(AML)可以极大地简化模型的创建过程,但是维护,刷新和更新仍然需要人工干预。
并不是说我们试图让自己失业。但是毕竟,一旦构建并实施了模型,继续下一个机会就变得更加有趣。如果维护和刷新周期可以真正实现自动化,那将是一件好事。
到目前为止,大部分工作已投入到简化将模型从AML环境移入生产环境的过程中。Facebook的FBLearner就是一个例子。许多平台声称可以为我们其他人简化此过程。至少一次我们手动刷新模型后,在生产中更容易对其进行更新。
但是真正的目标是“零接触”,完全自动化的监控,重新培训和实施更新的模型。去年,Tom Diethe,Tom Borchert,Eno Thereska,Borja Balle和Neil Lawrence都提出了一种参考架构。他们的论文描述了您将在此处阅读的大部分内容。
在您阅读本文时,亚马逊很可能已经拥有了其专有版本,不久之后这将成为AML平台的常规功能。
亚马逊可能是其中的先行者。他们拥有数不胜数的不同推荐模型,这些模型会不断提取有关我们的点击和购买的流数据。随着零售领域产品和注意力的不断发展,他们的模型可能比大多数情况更偏离最佳性能。
如果您在“下一个最好的报价”的环境中工作,而您的服务变化比较缓慢(想想金融服务),则您仍然需要保持警惕,但可能不需要在线零售商所要求的强度和速度。
这凸显了以下观点:任何潜在的零接触(或作者所说的自适应系统)的最佳应用都是在流数据环境中。在这里,您面临着数据质量以及预测准确性的双重挑战。让我们从作者提议的体系结构的概述开始。
在流输入的左侧,您需要一个草绘器/采样器和连接器。采样器会不断下载新的建模数据以进行潜在的刷新。Joiner解决了现实世界中的问题,即在流数据中,与事件相关的事件可能不会在同一时刻到达,因此需要对其进行匹配才能对它们进行有价值的处理。
两个主要的操作子系统是“数据监视器”和“预测监视器”。
数据监视器专注于检测和纠正异常,测量偏差或与我们最初创建的模型不同的分布。该模块的报告应包括任何班次的类型和大小以及所产生不确定性的量化。例如,如果最具预测性的变量的等级发生了变化,则可能会触发完整的重构并审查超参数优化(HPO)。不太重要的变化可能只需要重新加权变量即可。
在大多数情况下,可以在流量中对其进行充分调整,因此不会中断该过程。真正严重偏离预期的情况很可能会被数据科学团队排除在审查之外。
预测监视器会跟踪模型的准确性,并告诉我们是否可以使用此系统创建的自动更新。在这一点上,预测监视已经相当合理地开发,并且显然是针对每种模型或预测类型分别设计的。
该系统的核心是策略引擎,该引擎嵌入了业务规则和有关所需准确性的测试,这些准确性与应更新模型的频率,成本与潜在收益之间的平衡进行了平衡。其他考虑因素包括:
时间范围:新数据需要多长时间才能成为模型的一部分(请考虑快速变化的零售)。新数据需要花费多长时间。
数据的来源是什么。需要大量详细的日志记录以分析发生的任何错误。
作者建议,这最终可能会通过强化学习实现自动化,但目前并非如此。
注意此功能在不久的将来会成为AML平台的常规组成部分。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群