马尔可夫决策过程中的若干最小风险模型
该文研究离散时间、时齐的马尔可夫决策过程,其系统状态空间和行动空间均为可数集,优化准则是使累积报酬(总报酬或折扣总报酬)未超过决策者的目标值(预期值)和风险(概率)达到最小.该文目的在于解决这类模型的最优策略的存在性、结构,最优值函数的性质及求解最优策略的算法.
文目的在于解决这类模型的最优策略的存在性、结构,最优值函数的性质及求解最优策略的算法.
作 者:
伍从斌 学科专业:
应用数学 授予学位:博士 学位授予单位:
清华大学 导师姓名:
萧树铁林元烈 学位年度:1998 研究方向: 语 种:chi 分类号:O211.67 关键词:
马尔可夫决策过程 风险准则 最优策略 决策状态 目标值 机标分类号:S81 S18 机标关键词:
马尔可夫决策过程 最优策略 系统状态空间 报酬 最优值函数 优化准则 离散时间 预期值 目标值 可数集 决策者 存在性 折扣 算法 求解 模型 结构 概率 风险 基金项目:
在清华图书馆里,应该可以搜到。所以跪求清华的路过者帮帮忙,非常感谢。