全部版块 我的主页
论坛 经济学人 二区 外文文献专区
834 11
2022-04-20
摘要翻译:
基于观察到的个人数据来分配治疗越来越有兴趣:例子包括不同的定价、个性化的信贷提供和有针对性的社会项目。政策目标引入激励措施,鼓励个人改变自己的行为,以获得更好的治疗。我们证明了当观察到的协变量内生于治疗分配规则时,基于标准风险最小化的估计量是次优的。我们提出了一个动态实验,它收敛到最优治疗分配函数,而不需要对个体策略行为的参数假设,并证明了它具有以线性速率衰减的遗憾。我们在模拟和小型MTurk实验中验证了该方法。
---
英文标题:
《Learning to Personalize Treatments When Agents Are Strategic》
---
作者:
Evan Munro
---
最新提交年份:
2021
---
分类信息:

一级分类:Economics        经济学
二级分类:Econometrics        计量经济学
分类描述:Econometric Theory, Micro-Econometrics, Macro-Econometrics, Empirical Content of Economic Relations discovered via New Methods, Methodological Aspects of the Application of Statistical Inference to Economic Data.
计量经济学理论,微观计量经济学,宏观计量经济学,通过新方法发现的经济关系的实证内容,统计推论应用于经济数据的方法论方面。
--
一级分类:Computer Science        计算机科学
二级分类:Computer Science and Game Theory        计算机科学与博弈论
分类描述:Covers all theoretical and applied aspects at the intersection of computer science and game theory, including work in mechanism design, learning in games (which may overlap with Learning), foundations of agent modeling in games (which may overlap with Multiagent systems), coordination, specification and formal methods for non-cooperative computational environments. The area also deals with applications of game theory to areas such as electronic commerce.
涵盖计算机科学和博弈论交叉的所有理论和应用方面,包括机制设计的工作,游戏中的学习(可能与学习重叠),游戏中的agent建模的基础(可能与多agent系统重叠),非合作计算环境的协调、规范和形式化方法。该领域还涉及博弈论在电子商务等领域的应用。
--
一级分类:Computer Science        计算机科学
二级分类:Machine Learning        机器学习
分类描述:Papers on all aspects of machine learning research (supervised, unsupervised, reinforcement learning, bandit problems, and so on) including also robustness, explanation, fairness, and methodology. cs.LG is also an appropriate primary category for applications of machine learning methods.
关于机器学习研究的所有方面的论文(有监督的,无监督的,强化学习,强盗问题,等等),包括健壮性,解释性,公平性和方法论。对于机器学习方法的应用,CS.LG也是一个合适的主要类别。
--

---
英文摘要:
  There is increasing interest in allocating treatments based on observed individual data: examples include heterogeneous pricing, individualized credit offers, and targeted social programs. Policy targeting introduces incentives for individuals to modify their behavior to obtain a better treatment. We show standard risk minimization-based estimators are sub-optimal when observed covariates are endogenous to the treatment allocation rule. We propose a dynamic experiment that converges to the optimal treatment allocation function without parametric assumptions on individual strategic behavior, and prove that it has regret that decays at a linear rate. We validate the method in simulations and in a small MTurk experiment.
---
PDF下载:
-->
English_Paper.pdf
大小:(702.88 KB)

 马上下载

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2022-4-20 21:47:05
当AgentsAre Strategic时学会个性化治疗Cevan Munro*斯坦福大学商学院于2022年3月21日抽象数据:例子包括有针对性的营销、个性化信贷和异质化。治疗个性化引入激励,促使个人改变自己的行为,以获得更好的治疗。这改变了协变量的分布,要求显式依赖于治疗的分配方式。我们给出了策略行为的必要条件,我们证明了最优规则可以包括随机化,甚至将低于100%概率的治疗分配给由该规则诱导的阳性治疗。我们提出了一个基于贝叶斯优化的动态实验,该实验在没有参数假设的情况下收敛到最优治疗分配函数。关键词:Stackelberg游戏、鲁棒性、治疗规则*Frankel、Guido Imbens、Stefan Wager、Bob Wilson和Kuang Xu寻求有益的评论和讨论。http://github.com/evanmunro/personalize-policy.arxiv:2011.06528 v4[econ.em]2021年3月17日介绍越来越多的个人层面的数据收集增加了在各种环境中个性化治疗的可行性。不同程度地对待个人可以改善根据消费者的购买历史使用优惠券的情况,与给每个人分配相同的优惠券相比,可以提高收入。食品检查员或检验人员的分配可以通过将他们分配到对检查反应最大的安全改善机构来改善(Athe,2017;Glaeser等人,2016)。电话使用等数据(Bj"orkegren和Grissen,2019)。待遇。本文研究了当Agent根据treatmentrule策略性地报告协变量时,如何最优地分配一个二元处理条件下的观察协变量。在优惠券示例中,一个利润最大化的卖家希望只分配优惠券。然而,卖方不能直接观察买方的类型,所以取而代之的是改变他们的行为来模仿一个不情愿的买方,并节省他们的购买费用。因此,观察到的协变量的分布可以根据分配规则的结构而改变,这影响了治疗如何优化分配。n这使该框架中的预期结果最大化。有大量的相关文献研究了当代理人操纵线性环境下,可操纵特征被低估时估计预测规则(Frankel和Kartik,2020;Ball,因果设置。正如Athe(2017),《预测和因果推断的问题》,从一般的最优预测规则》(Ascarza,2018;Bertsimas和Kallus,2020)中描述的那样。在非战略环境中,关于政策学习的文献表明,在各种框架中,Wager,2020)。本文试图解决的文献中缺少的是如何对个体进行异质性治疗,即对阳性个体进行概率为1的个体化治疗的预期结果与对照结果之间的差异。这个规则的一个经验版本被称为条件经验成功规则(Manski,2004)。当存在XHOW时,最优规则将治疗分配给由该规则诱导的正效应,且治疗概率大于零的治疗。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-20 21:47:11
对于某些形式的策略行为,在治疗规则中增加一些随机化,减少了从事策略行为的动机,因此有时会导致治疗的条件分布,从而更适合于缺陷目标。我们提供了两个例子来进一步说明这一理论结果。负面个体治疗是策略性的,以增加它们在根据观察到的协变量对歧视做出反应时变得越来越策略的概率。策略行为。使用a/B检验来估计CATEs,并分配具有正估计Cuto hensed或随机结构的个体。本文的另一个贡献是设计了一个序列实验,允许规划者在不对agent策略行为进行任何参数假设的情况下,随着时间的推移学习最优处理规则。我们证明了处理规则的估计问题可以转化为一个零阶随机优化问题。然后,基于贝叶斯优化方法,利用序贯含噪函数评价来估计最优治疗分配规则,该方法对目标函数施加了除平滑性之外的最小假设。在文章的第四部分,我们给出了一个MTurk实验,证明了平均治疗的有效性。我们使用这个实验的数据来运行一个半综合的快速减少后,低数量的噪声评估的对象。相关的工作设置。Stackelberg模型是由Hardt等人提出的预测环境下的战略行为模型。(2016)并引发了越来越多的战略分类文献。这篇文献的一个方面研究了收敛于最优预测规则的算法。东埃塔尔。(2018)使用无导数凸优化,当代理策略是对连续协变量的高成本操纵时,该凸优化收敛到最优值。在经济学上,Bj"orkegren Etal。(2020)使用了一个随机实验,该实验改变了该模型下预测函数最优的coe_cients。在这篇论文的版本之后,Miller等人。(2021年)和伊佐等人(2021)还通过引入一些轻结构假设,通过衍生凸优化的变体计算了最优预测规则。另一类近似最优策略,如重复风险最小化(Perdomo等人),我们引入了一个序列实验来直接估计最优治疗分配规则。预测可以被认为是一种干预,正如Miller干预所描述的那样,干预不能归结为一个标准的分类问题,因此需要新的分析。第二个区别是,我们的估计器的遗憾性质不需要参数分配规则;这些假设经常在分类文献中提出,并在更一般的因果框架中得到验证。论文中,我们导出了治疗分配的补充结果。我们发现,在策略代理的治疗分配中存在一种加权不足的形式,其中最优规则的概率为100%。规则在越来越多的环境中。文献考虑了来自arandomized实验(Manski,2004)或观察(Athey and Wager,2020;Kallus and Frameworks(Hirano and Porter,2009)下的预算(Bhattacharya and Dupas,2012)的数据,我们的论文检验了当代理人在与文献中的初始论文更具可比性的环境中制定策略时,无约束最优规则的结构,其中处理是二元的,协变量是离散的,目标是最大化预期结果。估计溢出或平衡下的因果量,并为这些更复杂的环境设计新的实验形式(Vazquez-Bare,2017;Viviano,2020;Munro et al.,2021)。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-20 21:47:18
2治疗分配模型2.1外源协变量的治疗分配我们首先讨论了Manski(2004)的经典设定。每一个ofi∈,....................................................................................治疗分配进行如下:1。对于每个x∈x.2,规划器指定δ(x)=Pr(WI=1XI=x)。从Bernoulli采样(δi)进行二元处理,其中δi=δ(Xi)。观察结果为Yi=Yi(Wi),xiδx→,ddδδ∈,Deyiwiτxeyi-yixixxδx最优处理规则。利用贝叶斯规则,E[yi(Wi)]=xx∈xδ(x)E[yi(1)xi=x]+(1-δ(x))E[yi(0)xi=x]。(1)命题1.假设密度f(x)>0对于allx∈x。最大化期望结果的策略是由δ(x)=(τ(x)>0)对于x∈x。这个规则基于一个有限的数据样本,我们只需要τ(x)的一个估计,它可以用伯努利随机实验的数据构造出来,τ(x)=npi=1(xi=x,wi=1)yinpi=1(xi=x,wi=1)yinpi=1(xi=x,wi=0)yinpi=1(xi=x,wi=0)yinpi=1(xi=x,wi=0)。δxτx>x∈xδx最优规则。2.具有策略Agentsi的治疗分配..,n}Xi∈XXDIXIXIXIδXI,D→X处理规则。XI·,{Yi,Yi}.Gcan现在被描述为一个Stackelberg对策:1.对于每个x∈x,planner规定δ(x)=Pr(wi=1xi=x)。2.对于i∈[n],agenti报告协变量xi(δ)∈x。在许多情况下,我们可以解释tui·xi(δ)=arg maxxδ(x)Ui(x,1)+(1-δ(x))Ui(x,0)。在本节中,我们描述了最优规则的结构,我们假设潜在的结果对潜在的结果也依赖于δ.3的情况是鲁棒的。对于i∈[n],Wiis取自δ(Xi)。观察结果Yi=Yi(Wi)。δxxxi异质效用函数,当最大化时,决定个体对某一治疗分配规则的反应。保持不变。π(δ)=E[yi(Wi)],并将一个最优规则定义为δ*∈arg maxδ∈[0,1]de[yi(Wi)]。每个可能的治疗规则的相关关系为:τ(x,δ)=e[Yi(1)-Yi(0)Xi(δ)=x]。一个好的靶向规则的自然猜想是命题1中的cuto-heled规则的推广。具有战略智能体的Cuto hold规则满足以下条件:δC(x)=(τ(x,δC)>0)。(2)根据δC引起的XI分布,计算了CATE。根据战略行为的形式,可能不存在符合此规定点条件的Cuto规则。在它存在的条件下,我们将证明最优分配规则有时具有这种形式,但在其他情况下不具有这种形式。δfx,δp rxiδxBayes规则将π(δ)展开为π(δ)=xx∈xf(x,δ)δ(x)δ(x)μ(1,x,δ)+(1-δ(x))μ(0,x,δ).其中μ(w,x,δ)=e[yi(w)Xi(δ)=x]。处理规则现在进入客观规则。为了取得一些进展,我们需要施加一些规律性条件。策略行为,使得协变量的边际分布和报告某一协变量值的个人的平均潜在结果随分配规则的变化而平稳变化。假设1.条件结果函数μ(1,x,δ)和μ(0,x,δ)是在δ中的二元论,且对每个x∈x有界。f(x,δ)在δ中对于每一个x∈x也是可分的。δ域,在[0]上达到最大值,1]d,我们将其定义为:v=maxδ∈[0,1]dπ(δ)。最大值集{δ:π(δ)=v*},我们表示δ*的任何元素,都保证定理1。μx,δδx,x,δ-δx,x,δ以下是任何最优规则δ*必须满足的必要条件:存在长度向量λ≥0和λ≥0,使得对于每一个x∈x,f(x,δ*)[τ(x,δ*)]+xz∈x f(z,δ*)δ*(x)+f(z,δ)δ*(z)μ(1,z,δ*)δ*(x)+(1,z,δ)δ*(x)+(1,z,δ)δ*(x)+(1,z,δ)δ*(x)+(1-δ*(z))θ(0,z,δ*)δ*(x)λx+λx=0(3)(δ*(x)-1)λx=0,和δ*(x)λx=0,和0≤δ*≤1。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-20 21:47:24
如果π(δ)是凹的,那么这个必要条件也是保证该规则是π(δ)的全局极大值的必要条件。我们可以在等式3中得到条件的策略分量ass(x,δ)=xz∈x f(z,δ)δ(x)μ(z,δ)δ(z)μ(1,z,δ)δ(x)+(1-δ(z))μ(0,z,δ)δ(x){z}条件分布移位。(4)δxfx,δτx,δsx,δxsx,δ回到命题1的设置中。如果CATE是正的,那么,策略行为δxδ*x的导数,目标对τx的一个参数的导数,δδ的结果给出协变量。治疗规律的改变导致XI分布的改变。如果分布移动响应于δ(x)的小增加,结果是:1。更多的个体报告与更高的实现结果相关的协变量2.μ,z,δδ(z)更接近于1和3.μ,z,δδ(z)更接近于零,策略部分捕捉了改变治疗规则如何导致Xi的分布,这些分布或多或少与个体治疗e-ectτi=yi(1)-yi(0)相关。这说明了计划者很容易区分那些有积极治疗的人和那些有消极治疗的人,并影响了最优分配规则的结构。假定形式为δC(x)=(τ(x,δC)>0)~x∈XSGNS~x,δCSGNτ~x,δCS~x,δC>F(x,δC)τ(~x,δC),则δ=δC,最优规则不具有形式为δ^=δC.如果不存在这样的~X,且π(δ)是凹的,那么即使存在策略行为,最优规则也是最优的。Sx,δCτX,δ-在推论1中所述的条件下,最优规则是一个内部解,对于X∈X的某些值,我们诱导一些随机化,其中0<δ*(X)<1。当XICAN取许多可能的值时,一般对s(x,δC)的解释比较复杂,而s(x,δ)的XI∈L,H}形式是简单的,我们可以给出一些直观的条件,在这些条件下(x,δ)与τ(x,δ)具有相同的符号,从而使Cuto定理是最优的。我们接下来介绍假设2。Xi∈{L,H}δC{L,H}→,δC(L)=0且τ(L,δC)<0,δC(H)=1且τ(H,δC)>0。我们还将策略行为限制为从Mlintoh中选择的形式(Heckmanand Vytlacil,2005)。一定比例ρHL异构成本的报告H,CI。对于报告规则不恒定的代理人,我们可以将其效用函数写为:ui(x)=viδ(x)-Ci(x=H)假设3的一个含义是战略报告函数可以采取两种可能的形式之一:xi(δ)∈{H,L+(H-l)(δ(H)-δ(L)≥Ri)},其中i=civi。在这些假设下,推论2提供了一个条件,限制局部平均治疗的标志E-ECT(LATE)。在此条件下,假设2中的Cuto lited规则满足定理1的必要条件。推论2。在假设2和3中,如果在Cuto lited规则的局部区域中具有策略性的个体具有正的平均治疗E-ect,那么[Yi(1)-Yi(0)ri=1]≥0,δCδ凹,δCi是全局最优的治疗规则δ*。与在外源中总是最优的Cuto lited规则不同的治疗规则,则后期条件将被满足,一个Cuto lited规则是最优的。在这种情况下,计划者和个人之间的激励是一致的;对此有积极反应的个体。对齐。从计划者的角度来看,对治疗有负面反应的人可能是那些喜欢治疗足以改变他们行为的人。如果具有负ITE的个体是策略性的,那么推论的后期条件2就不满足,内部解可以是最优的,而不是最优的规则。我们通过遵循假设2和假设3的两个简单模型来说明这一点。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-20 21:47:30
2.3二元协变量的例子在每一个模型中,我们计算了三种不同分配策略的待遇分配、分配和目标函数:1。δ(H)=δ(L)=0.52的统一分配策略。δ(H)=1和δ(L)=03的Cuto-hing规则。使预期结果最大化的最优规则示例1。通过Couponsi∈[n]的价格歧视,存在一个未观察到的θiBernoulli(0.5)型,它决定了潜在的结果{Yi(1),Yi(0)}和报告行为xi(δ)。θi=0的顾客总是购买者,如果他们收到优惠券,θi有75%的概率。购买一个产品,没有优惠券的情况下可获得10美元的优惠,有优惠券的情况下可获得5美元的优惠。这会导致潜在的outcomesYi(Wi)=5·(0.75θi+(1-θi))Wi+10·(1-θi)(1-Wi)。商店观察到xi∈{L,H}而不是θi,其中xi=H表示顾客已经离开了xiilxi=H。然而,当优惠券在XI的基础上分配时,这引入了激励个体行为变化的特定成本ci∈0,10),并用以下效用函数来描述:ui(x)=5·δ(x;β)-Ci(1-θi)(x=H)。这导致一个行为函数遵循假设3:xi(δ)=θih+(1-θi)L+(5(δ(H)-δ(L))≥Ci)(h-l)。当处理δHδlxixi(δ)时,最优策略是最大利润的优惠券分配程序。δ*=arg maxδe[yi(Wi)]表1描述了优惠券τH,δ.τL,δ-模型中三种直接分配规则的性能,目标值为4.688美元。我们可以实现一个cuto规则δC(H)=1和δC(L)=0,它将预期结果提高到5.626美元。但是,由于δC(H)=δC(L)的策略行为现在是由θI=0的策略行为引起的。在附录B.1中,我们表明Xinow的分布依赖于δ(H)-δ(L).pr(Xi(β)=HθI=0)=(δ(H)-δ(L)){δ(H)>δ(L)}.一致规则(δ)cuto ho规则(δC)最优规则(δ*)δ(L)0.50.00.0δ(H)0.51.00.75τ(L,δ)-5.00-5.00-5.00τ(H,δ)3.750.831.36π(δ)4.6885.6255.703表1:例1规则中分配规则的性能。利用定理1中的条件,我们可以导出δ*(H)=0的最优规则。δ*负个体处理下的个体是策略性的,计划者和代理人的激励是不一致的。因此,最优靶向规则在分配中具有随机性;这减少了在XI的分布中发生的策略行为的数量。示例2。分配产品升级在第二个示例中,afirrm是用于购买的产品升级。同样,thearencustomers和对每个客户来说i∈[n]是一个未被观察到的类型θiéBernoulli(0.5),它决定了潜在的结果和战略行为。θi=0表示幼稚的客户,θi=1表示成熟的客户,wi=1表示客户接受了产品升级。fiegrm从每个没有得到治疗的客户那里获得5美元的优惠。这种升级惹恼了那些对升级没有用处的天真客户,所以他们减少了。对于老练的客户,他们从产品升级和购买中获益,导致每个接受治疗的老练客户的利润为10美元。yi(Wi)=5(1-Wi)+(1-Wi)(10θi-(1-θi))。幼稚客户的ITE为负,老练客户的ITE为正。firegrm不直接观察客户的老练程度,但他们观察他们是否完成了一个证书coursexi∈L,H}。天真的客户永远不会完成认证课程(XI=L)。在没有产品升级的情况下,老练的客户根据某些随机值vié均匀值(-,10)是否大于等于零来完成认证课程(xi=h)。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群