全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1151 0
2020-08-31
强化学习能否在2020年取得突破
简介:   强化学习(RL)对于实现我们的AI / ML技术目标至关重要,但是它有许多障碍需要克服。虽然可以在一年内实现可靠性和减少培训数据,但是RL作为“黑匣子”解决方案的性质将对其缺乏透明度进行审查。
传统的机器学习,甚至是深度学习的有监督和无监督学习,都是企业目前在AI / ML上进行大量财务投资和回报的核心。但是事实是,这些技术现在已经相当成熟,收益曲线趋于平坦。
如果您正在寻找AI / ML的下一个突破技术,那么几乎肯定会来自强化学习(RL)。RL研究已经付出了很多努力,但可以公平地说,RL尚未达到成为完全商业化工具所需的标准化。
在游戏中(Alpha Go)和自动驾驶汽车中,有很多值得新闻关注的胜利。但是,尽管RL应该成为涉及顺序决策的任何问题的首选技术,但它还不存在。
在我们的上一篇文章中,我们强调了阻碍RL的两个缺点,这是Microsoft RL的首席研究员Romain Laroche所描述的:
“这在很大程度上是不可靠的。更糟糕的是,由于强化学习过程的随机性,使用不同随机种子的两次运行可能会产生非常不同的结果。”
“ 他们需要数十亿个样本才能获得结果,而在现实应用中提取如此天文数字的样本是不可行的。”
我们专注于一些有希望的研究,该研究以少得多的数据解决培训,这是一个严重的财务和实践约束。但是,剩下的甚至更加复杂。
因为RL解决方案是用随机种子启动的,所以它们实质上是在状态空间中的随机搜索。设想将两种启动程序算法随机跳入这个潜在解决方案的庞大丛林中,以期找到最快的出路。尽管这两种解决方案可能达到相同的性能水平,但是RL是一个众所周知的黑匣子,它使我们无法了解为什么以及如何选择系统执行的顺序步骤。
Gartner最近的报告“ 2020年十大战略技术趋势 ”中的两个相互矛盾的目标凸显了为何如此重要。
引起我们注意的两个趋势是:
趋势八:自主的事情
“自主物品(包括无人机,机器人,轮船和设备)利用AI来执行通常由人类完成的任务。这项技术可在从半自主到完全自主的各种智能范围内运行,并且可跨多种环境(包括空中,海洋和陆地)……自主事物也将从单机群转移到协作群,例如冬季奥运会期间使用的无人机群。 2018年的游戏。”
报告中未提及的是,要实现这一目标将需要强大而可靠的RL。尽管有一些非常壮观的机器人(例如波士顿动力公司)主要依靠身体运动算法(而不是AI / ML)来进入下一阶段,但需要RL。
但是,第二趋势对于RL而言将更加困难。
趋势5:透明度和可追溯性
“技术的发展正在引发信任危机。随着消费者越来越意识到如何收集和使用他们的数据,组织也逐渐意识到存储和收集数据的责任越来越大。”
“此外,越来越多的人使用AI和ML来代替人类做出决策,从而演变出信任危机并推动人们对诸如可解释的AI和AI治理之类的想法的需求。”
尽管我们更有可能想到GDPR和电子商务相关的隐私问题,但事实是,所有AI / ML最终都将基于我们对决策方式的理解而受到挑战。
尤其是鉴于RL政策制定的随机性,以及两个成功的RL计划可能以完全不同的方式达到目标,这将是一个难以克服的挑战。
应对可靠性
罗曼·拉罗什(Romain Laroche)提出了两种技术,这些技术在解决可靠性问题方面显示出了希望。  在他的论文中,一种方法是处理集成方法(EBAS),另一种方法是调整调整参数风险条件值(CvaR)(最差运行的平均值),这两种方法都可以提高性能并减少训练时间,同时限制了RL的自然趋势会发现并利用系统中的故障,这些故障可能导致成功的结果,但如果实际发布到生产环境中,则会包含某种形式的意外伤害。后一种技术的名称为SPIBB(带有基线引导的安全策略改进)。
集合方法借鉴了机器学习中的相同概念,并且与训练过程中遗传算法选择中的搜索过程相似,从而产生了很好的结果。
EBAS算法学习速度更快,并且最终性能不会降低。
透明度?
我们似乎正在努力解决可靠性问题和海量训练数据需求的单独问题。这无疑将导致我们走向透明性问题。例如,在有人受伤和死亡之后接受检查的自动驾驶汽车。我们对机器的错误容忍度要比对人工操作员的错误容忍度低得多。
强化学习无疑将在2020年做出重大贡献,但经过验证的商业上可接受的一揽子计划的障碍以及由于缺乏透明度而导致的退缩可能不会在一年内完全解决。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群