全部版块 我的主页
论坛 经济学人 二区 外文文献专区
882 45
2022-05-09
英文标题:
《Sequential Design for Ranking Response Surfaces》
---
作者:
Ruimeng Hu and Mike Ludkovski
---
最新提交年份:
2016
---
英文摘要:
  We propose and analyze sequential design methods for the problem of ranking several response surfaces. Namely, given $L \\ge 2$ response surfaces over a continuous input space $\\cal X$, the aim is to efficiently find the index of the minimal response across the entire $\\cal X$. The response surfaces are not known and have to be noisily sampled one-at-a-time. This setting is motivated by stochastic control applications and requires joint experimental design both in space and response-index dimensions. To generate sequential design heuristics we investigate stepwise uncertainty reduction approaches, as well as sampling based on posterior classification complexity. We also make connections between our continuous-input formulation and the discrete framework of pure regret in multi-armed bandits. To model the response surfaces we utilize kriging surrogates. Several numerical examples using both synthetic data and an epidemics control problem are provided to illustrate our approach and the efficacy of respective adaptive designs.
---
中文摘要:
针对多个响应面排序问题,提出并分析了序贯设计方法。也就是说,给定连续输入空间$\\cal X$上的$L\\ge 2$响应曲面,目的是高效地找到整个$\\cal X$上最小响应的索引。响应面未知,必须一次一个地进行噪音采样。这种设置受随机控制应用的驱动,需要在空间和响应指数维度上进行联合实验设计。为了生成序贯设计启发式,我们研究了逐步减少不确定性的方法,以及基于后验分类复杂性的抽样。我们还将我们的连续输入公式与多武装匪徒中纯粹后悔的离散框架联系起来。为了对响应面建模,我们使用克里格替代项。文中给出了几个使用合成数据和流行病控制问题的数值例子,以说明我们的方法和各自自适应设计的有效性。
---
分类信息:

一级分类:Statistics        统计学
二级分类:Machine Learning        机器学习
分类描述:Covers machine learning papers (supervised, unsupervised, semi-supervised learning, graphical models, reinforcement learning, bandits, high dimensional inference, etc.) with a statistical or theoretical grounding
覆盖机器学习论文(监督,无监督,半监督学习,图形模型,强化学习,强盗,高维推理等)与统计或理论基础
--
一级分类:Quantitative Finance        数量金融学
二级分类:Computational Finance        计算金融学
分类描述:Computational methods, including Monte Carlo, PDE, lattice and other numerical methods with applications to financial modeling
计算方法,包括蒙特卡罗,偏微分方程,格子和其他数值方法,并应用于金融建模
--
一级分类:Statistics        统计学
二级分类:Computation        计算
分类描述:Algorithms, Simulation, Visualization
算法、模拟、可视化
--

---
PDF下载:
-->
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-5-9 03:56:20
排序反应面的序贯设计Hu和Mike Ludkovski*摘要受随机控制应用中最优反馈策略映射估计问题的启发,我们提出并分析了排序多个响应面的顺序设计方法。也就是说,吉文尔≥ 2连续输入空间X上的响应面,目的是高效地找到整个X上最小响应的指数。响应面未知,必须一次一个地进行噪声采样,需要在空间和响应指数维度上进行联合实验设计。为了生成序贯设计启发法,我们研究了贝叶斯逐步减少不确定性的方法,以及基于后验分类复杂性的抽样。我们还将我们的连续输入公式与多武装匪徒中纯粹后悔的离散框架联系起来。为了对响应面建模,我们使用克里格元模型。文中给出了几个使用合成数据和流行病控制问题的数值例子,以说明我们的方法和相应自适应设计的有效性。关键词。序贯设计、响应面建模、随机克里格法、序贯不确定性减少、预期改进1。介绍随机控制问题的一个核心步骤是估计用于逼近最优反馈控制的预期成本。在这个问题的模拟方法中,通过生成随机系统的轨迹来抽样成本,然后根据当前系统状态进行回归。最终对产生的Q值进行排序,以找到将预期成本降至最低的行动。当模拟成本很高时,计算效率和实验设计就变得很重要。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-9 03:56:23
顺序策略将学习成本重新表述为另一个动态计划,其行动与抽样决策相对应。在这篇文章中,我们探讨了这个顺序设计问题的贝叶斯公式。排名目标采用了一种新的损失函数,它混合了分类和回归标准。此外,由于存在多个随机采样器(每个可能的动作一个采样器)和一个连续的输入空间,有必要开发有针对性的响应面方法。特别是,一项重大创新是并行建模每个Q值内的空间相关性,同时利用多臂bandit透视图选择下一个要调用的采样器。为了获得Q值的可处理近似值,我们提倡使用高斯过程元模型,将潜在响应面视为高斯随机场的实现。因此,排名标准是根据eachQ值的后验不确定性制定的。因此,我们将元模型的不确定性与抽样决策联系起来,类似于排序和选择的离散框架以及多武装强盗。我们的工作在随机模拟器的仿真和随机控制之间建立了新的联系,提供了一类新的近似动态规划算法。1.1. 抽象排序问题。让u`:X→ R、 `∈ L≡ {1,2,…,L}be L光滑函数在Rd的子集X上。我们对学习加州大学圣巴巴拉分校统计与应用概率系93106的最终排名问题感兴趣-3110hu@pstat.ucsb.edu,ludkovski@pstat.ucsb.edu.NSF ATD-1222262.2 Ruimeng Hu和Michael Ludkovski在输入空间X上部分支持的工作,即查找分类器(1.1)C(X):=arg min`{u`(X)}∈ L.函数u`是先验未知的,但可以进行噪声采样。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-9 03:56:27
这适用于任何x∈ 十、 `∈ Lwe可以访问模拟器Y`(x),该模拟器生成u`(x)的估计值:(1.2)Y`(x)=u`(x)+`(x) ,`∈ 我在这里`是方差为σ`(x)的独立平均零随机变量。直观地说,我们在X上有L个光滑的超曲面,可以通过蒙特卡罗采样。在dynamicprogramming上下文中,x是系统状态,`为控制器可用的各种操作编制索引,u`(·)代表执行和执行的预期成本`(·)捕获从底层随机系统的路径模拟中产生的模拟噪声和相应的成本。我们的目标是在整个输入空间中全局确定最小曲面。更准确地说,我们试图在每个x上赋值∈ X a标签^C(X),同时优化损失度量(1.3)L(^C,C):=ZXn^C(X)(X)- (dx)的uC(x)(x),其中F(·)是x上的一个特定权重函数,确定不同区域的相对重要性。因此,如果排名正确^C(x)=C(x),则损失为零,否则与所选响应与真实最小^C之间的(正)差异成正比- uC.上述标准旨在确定最佳行动`*(十)≡ C(x)在x国采取行动;如果选择了错误的动作^C(x),则(1.3)会捕获控制器的综合损失,假设潜在状态x的概率分布F(·)。在(1.3)中,损失函数混合了回归和分类目标。在回归中,我们试图用与单个表面u`(·)相关的损失函数来略微估计响应。相反,(1.3)只是关于正确识别最小响应的指数。因此,只要最小响应不变,就可以容忍较小的估计误差,从而导致损失函数中的阈值行为。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-9 03:56:30
在分类中,损失函数是离散的(通常带有固定的误分类惩罚),而(1.3)将损失与误分类距离C(x)(x)成比例-uC(x)(x)。另一个关键区别是,在分类中,采样空间仅为X(返回一个嘈杂的标签C(X)∈ 五十) ,而在我们的上下文中,采样查询由位置索引对(x,`)组成∈ X×L,一次采样一个响应。我们需要分析样本的数量,而我们需要分析样本的数量。由于u`(·)是未知的,我们将(1.3)定义为一个贝叶斯顺序学习问题,即自适应地增长一个设计Z,从而快速学习C(x)。经典的静态设计,即与响应无关的设计,不足以进行排名,因为优化计算效果的整体本质是基于对未知u′s结构的学习,学习表现为通过在输入空间X(集中在难以识别C(X)的区域)和采样指数L(集中在u′可能是最小响应的表面)中进行区分来聚焦采样。由于联合设计空间X×L,我们的问题允许双重解释。修正“,(1.1)是关于重建未知响应面x7→ u`(x)通过嘈杂的样本。排序响应面3的顺序设计将不同的响应面聚合在一起,X上的顺序设计减少到识别X=∪Li=1Ciinto集合ci:={x:C(x)=i}={x:uC(x)(x)=min`u`(x)=ui(x)},i=1,L.(1.4)因为在分区的内部,等级C(x)更容易识别,主要问题是确定分区边界Ci。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-5-9 03:56:33
因此,(1.1)与轮廓查找相关,在[22,42,43]中对其进行了顺序设计研究。标准等高线查找尝试识别响应面的水平集{u(x)=a},对应于L=2,已知u(x)=a在(1.1)中。因此,本文的分析可以被视为轮廓查找的多变量扩展。在内部,轮廓查找概括了将噪声响应最小化的经典目标,与模拟优化中的预期改进/信息增益权衡相关联。特别是,我们重新制定了[14,36]中的主动学习规则。相反,确定最小响应arg min`u`(x)的目标x对应于多武装匪徒(MAB)的设置。土匪有L个手臂和相应的报酬∈ 五十、 决策理论目标(1.1)称为纯勘探问题[7,8]。对哪些arm进行拉动的决策政策通常以后验均值和对各自支付的信心来表示;这种观点促使我们使用差距上限(UCB)设计策略[4,46]。与本文献相比,(1.3)包含两个关键差异。首先,损失函数是一个加权纯后悔标准,据我们所知,它从未在MAB环境中使用过。第二,我们不是一个拥有独立武器的土匪,而是将其从根本上扩展到一个由x索引的土匪连续体∈ X.最近,[26,17]考虑了多个强盗,它们可以被视为(1.1),具有离散的、非度量的X。我们将它们的设置概括为连续的X,具有手臂的空间相关结构。1.2. 方法概述。要处理连续状态空间x∈ 对于随机控制中出现的X,我们采用克里格或高斯过程(GP)回归的框架来建模Q值。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群