全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1633 0
2022-05-24

强化学习 (RL),一个“利基”机器学习技术,在过去五年中浮出水面。在基于上下文的决策中,强化学习帮助机器通过试错法做出激发行动的决策,以实现针对某种情况的最佳算法模型。

此外,机器通过基于奖励/惩罚的反馈机制进行训练,其目标是不断改进机器或机器人的行为方面。RL 广泛应用于能源、交通、金融或医疗保健等涉及多个数字代理的自动化领域。强化学习目前被用于训练游戏或机器人、自然语言处理或计算机视觉方面的系统。深度强化学习 (DRL) 是 RL 的一个子领域,如鲁本光滑在 Quora 中解释。DRL 有助于解决传统 RL 的一些限制。

什么是深度强化学习?
让我们从术语开始。对于那些不熟悉“代理”、“状态”、“动作”、“奖励”和“环境”等概念的人,文章 The Very Basics of Reinforcement Learning解释了强化学习和深度强化学习的基本细节。围绕这些概念的指导原则——构成“政策”——也以易于理解的格式描述。

强化学习最好在以状态、代理、动作和奖励为标志的环境中理解。环境可以将智能体的“当前状态和动作”作为输入,然后以“奖励”或“惩罚”的形式返回输出,以鼓励积极的行为学习。本指南描述了环境如何充当“系统的指路明灯”,以接受“行动”作为输入并输出“奖励”或“惩罚”,以不断改进机器决策。

在福雷斯特的人工智能报告催生了 10 种热门技术作者综合了 Forrester 人工智能技术报告中的发现。在这篇文章中,Tungsten Network 采购主管 Andrew Nicholas 提到,先进的机器学习 (ML) 算法有可能彻底改变采购业务中的“生命周期管理”,让机器能够直接从可用数据中学习,而不是依赖于由人类程序员设定的程序规则。这篇文章强调了机器和业务从业者之间建立强大网络的必要性。

这信息世界文章什么是深度强化学习:人工智能和深度学习的下一步提到强化学习最适合帮助有监督和无监督学习方法的决策。强化学习的另一个引人入胜的应用是在边缘应用中,其中机器人技术与“上下文自治”相结合来驱动人性化的机器。

专家们对深度强化学习的未来持怀疑态度吗?
强化学习的研究现状目前处于“理论”和“实验实践”的交汇处。研究人员试图证明 RL 和 DRL 对于“世界模型”不可用的用例特别有用。然而,众所周知,特定情况的机器学习算法在大多数情况下比 RL 的世界模型更有效。目前,AlphaGo 是深度强化学习令人信服的“概念证明”。

Himanshu Sahni 的帖子 强化学习从未奏效,并且“深度”仅有所帮助,指的是一本关于 RL 的书,其中包含许多强化学习独有的示例。作者指出,在那些有监督、无监督或深度学习失败的问题中,RL 或 DRL 可能有助于开发给定问题的通用模型。

问题是,“通用模型”能否解决高度特定领域的问题?一般模型的一个巨大限制是,在开发过程中,用户假设“具有无限数量的状态和动作的无限数量的代理已经被尝试了无数次。” 实际上,这样的实验可能是不可能的。

以机器人为例,在机器人做出正确动作之前,它会在很长一段时间内接受有关“正确动作”的指导。因此,隐含地,探索的想法与“扩展奖励”联系在一起。

如何让深度强化学习发挥作用
人们普遍认为,只要有足够的时间,高级 ML 研究人员将成功地使强化学习和深度强化学习在实际上下文环境中发挥作用。文章深度强化学习还行不通提供了一些高度内省和经过充分研究的想法,可以使 RL 和 DRL 成为实践者的科学。作者引用了合理的未来:

使奖励更加广泛,使其普遍适用。
在先进的硬件系统上工作,具有更高的速度和处理能力。
采用基于模型的方法来教机器(AlphaGo 是一个成功的模型)。
RL 应该用于调整“监督”或“无监督”学习,而不是取代传统技术。
模仿学习和逆强化学习等技术可用于改善奖励功能。
迁移学习目前还不确定,但它是未来。
建立在先前的经验之上。
DRL 的一些流行应用
深度强化学习技术经过试验和测试的用例包括:

通过使用文本摘要和语音样本与客户互动并随着时间改进的数字助理;
通过保险或医疗保健中的试错法优化政策制定;
培训在线代理指导股票交易。
福布斯邮报 深度强化学习将如何让机器人更智能提供了机器人技术中使用的 DRL 训练技术的描述。该帖子的作者将机器人的训练过程与小孩子的学习过程进行了比较。在 DRL 中,机器人因积极行为而受到奖励,而因消极行为而受到惩罚,这与人类训练孩子的方式非常相似。这篇文章提供了一个令人信服的“积极强化学习”故事,谷歌和其他一些科技巨头已经将其付诸实践。

关于 DRL 的不为人知的事实
以下是对强化学习和深度强化学习的一些独特功能的快速介绍:

RL 和 DRL 基本上是高级 ML 技术,它们使“代理”能够使用过去动作中产生的反馈通过交互式跟踪错误“动作”进行学习。
在监督学习和 DRL 中,输入和输出都会在生成“反馈”之前进行比较。
“监督”学习的反馈机制与 RL 或 DRL 的反馈机制最显着的区别在于,在监督学习的情况下,反馈以正确的动作步骤出现,而在 RL 或 DRL 的情况下,反馈以以下形式出现“奖励”或“惩罚”。从这个意义上说,DRL 鼓励行为改变,而不是提供基本指导。
无监督学习的最终目标是确定不同数据点之间的相似性和不同点,而在 RL 或 DRL 中,最终目标是确定一个模型行动方案以最大化奖励。
KD Nugget 帖子关于强化学习你需要知道的 5 件事解释了一些关于 RL 或 DRL 的鲜为人知的真相。

深度强化学习领域的最新突破
机器学习研究人员投入了大量时间和精力来为机器提供终极礼物——“思想”。因此,那一年见证了机器在自己的游戏中击败人类和机器生成的艺术.

以下是人工智能世界中一些最佳发现的快速回顾,其中包含机器学习,深度学习、强化学习和深度强化学习:

一家游戏开发公司推出了一个新平台,通过支持 DRL 的自定义环境来训练数字代理。
Universe 平台可以跨多个数字渠道训练任何机器人代理。
这迈向数据科学文章《使 2019 年成为新 AI 时代的 14 种深度和机器学习用途》详细讨论了最新进展。数据中心®文章 深度学习和分析:什么是交叉点?探讨了人工智能和相关技术最近在多大程度上促进了具有人类行为品质的机器的发展。

对深度强化学习感兴趣?
工作深度强化学习平台包括机器人学校, DeepMind 实验室, 和OpenAI 健身房. 有关行业中使用的高级 ML 实践的概述,请查看智能数据网络研讨会:机器学习更新——技术成熟度概述.
<table cellspacing="0" class="t_table" style="width:98%"><tbody><tr><td><strong><font color="#000">&nbsp; &nbsp;&nbsp; &nbsp;相关帖子</font><font color="#ffffff">DA内容精选</font></strong><br><ul><li><a href="https://bbs.pinggu.org/thread-10881346-1-1.html" target="_blank"><font color="#444444">2022年300个以上最佳免费数据科学课</font></a><br></li><li><a href="https://bbs.pinggu.org/thread-10906524-1-1.html" target="_blank"><font color="#444444">大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!</font><br></li><li><font color="#444444"><a href="https://bbs.pinggu.org/thread-10812708-1-1.html" target="_blank"><font color="#444444">机器学习模型方法总结</a></font><br></li><li><font color="#444444"><a href="https://bbs.pinggu.org/thread-10539866-1-1.html" target="_blank"><font color="#444444">历史最全机器学习/深度学习/人工智能专业术语表中英对照表</a></font><br></li><li><font color="#444444"><a href="https://bbs.pinggu.org/thread-10752275-1-1.html" target="_blank"><font color="#444444">机器学习如何应用于商业场景?三个真实的商业项目</a></font><br></li><li><font color="#444444"><a href="https://bbs.pinggu.org/thread-10799063-1-1.html" target="_blank"><font color="#444444">数据工作者的自我修养 | 哪些技能是必不可少的?</a></font><br></li><li><font color="#444444"><a href="https://bbs.pinggu.org/thread-10789579-1-1.html" target="_blank"><font color="#444444">《汗牛充栋:数据分析书籍分享》CDA网校新课上线</a></font><br></li><li><a href="https://bbs.pinggu.org/thread-10430198-1-1.html" target="_blank"><font color="#444444">文本挖掘常用的107个语料库</a></font><br></li><li><font color="#444444"><a href="https://bbs.pinggu.org/thread-10912133-1-1.html" target="_blank"><font color="#444444">一图读懂“东数西算”工程</a></font><br></li><li><font color="#444444"><a href="https://bbs.pinggu.org/thread-10810237-1-1.html" target="_blank"><font color="#444444">零基础转行数据分析,看这篇文章就够了</a></font><br></li></ul></td></tr></tbody></table>
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群