全部版块 我的主页
论坛 数据科学与人工智能 人工智能 机器学习
3938 1
2014-09-18
强化学习是界于监督学习和无监督学习之间的学习。
我自己觉着这些语言描述都不是很好听。在过一阵我就能用自己的话讲它们了。
说不准,我还能自己造一个机器人猫头鹰宠物出来。
1.每一步决策目标根据高期望的收益和低期望的风险来决定。
2.选择它达到目的方式利用很优化的一些选择算法。
3.每一个下一步以最大可能达到最好目的为选择标准。

一.马尔科夫决策过程

1.价值函数、最优价值函数、最佳决策的定义
\[\mathcal{A.}对任意政策\pi,价值函数是从状态到实数的一个映射V^\pi:S\mapsto R,使得V^\pi(s)是从状态s和执行\pi开始的预期总收益,\]
\[\begin{alignat}{1}即:V^\pi(s)&=E\left(R(s_0)+\gamma R(s_1)+\gamma^2 R(s_2)+\cdots |\pi,s_0=s\right)\\&=E\left(R(s_0)+\gamma (R(s_1)+\gamma R(s_2)+\cdots) |\pi,s_0=s\right),包括即时回报和未来回报两部分\end{alignat}\]
\[V^\pi(s)=R(s)+\gamma \sum_{s'}^{}P_{s\, \pi(s)}(s')\cdot V^\pi(s') 被称作贝尔曼方程,表示从状态s到s'的期望总收益。\]
\[\mathcal{B.}最优价值函数V^{*}(s)=\underset{s}{\max}V^\pi(s)\]
\[贝尔曼方程版本的最优价值函数是:V^{*}(s)=R(s)+\underset{a}{\max}\gamma \sum_{s'}^{}P_{s\, a}(s')\cdot V^{*}(s')\]
\[\mathcal{C.}对给定的s,最佳决策是\pi^{*}(s)=\underset{a}{\arg \max}\gamma \sum_{s'}^{}P_{s\, a}(s')\cdot V^{*}(s')\]
—>总收益由即时收益累计而成。为什么即时收益要特殊处理?

2.解出最优价值函数
\[\begin{alignat}{1}值迭代过&步骤1:对所有的s初始化价值函数V(s)=0\\&步骤2:对每一个s,V(s):=R(s)+\underset{a}{\max}\gamma \,\sum_{s'}^{}P_{s\, a}(s')\cdot V^{*}(s')\end{alignat}\]
\[异步更新的概念:\]
\[\begin{alignat}{1}政策迭代&步骤1:随机初始化\pi.\\&步骤2:(1)V:=V^\pi ; (2)\pi(s):=\underset{a}{\arg \max}\sum_{s'}{}P_{s\, a}(s')\cdot V(s')\end{alignat}\]
\[可以证明价值函数和政策的收敛:V(s) \to V^{*}(s),\pi(s) \to \pi^{*}(s)\]
\[如果不知道P_{sa}怎么办?\]
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2014-9-18 21:19:36
楼主数模肯定挺牛的!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群