全部版块 我的主页
论坛 经济学人 二区 外文文献专区
2022-4-26 14:58:04
然而,由于G-上述定义的(·,θ)几乎肯定等于(2.12)的右侧,而无需闭合,这是因为假设U是连续分布的。对该多功能的仔细检查提供了一些简化:-(Y,D,Z,θ)={Y}×[Y,Y]×[g(Z),1],如果D=0,[Y,Y]×{Y}×[0,g(Z)],如果D=1。(2.13)为了完成对事实领域的描述,我们将在⊥⊥ Z | X和d的平均独立条件E[Ud | Z]=E[Ud | X]∈ {0,1},作为力矩条件的序列。特别是,由于Z被假定为有限的,让我们将Z划分为乘积Z=Z×X,其中Z:={Z,…,z0K}和X:={X,…,xL}。现在考虑下面的矩不等式序列:E[(D- g(z,x)){z=z,x=x}]≤ 0, Z∈ Z、 x∈ 十、 (2.14)E[(g(z,X)- D) {Z=Z,X=X}]≤ 0, Z∈ Z、 x∈ 十、 (2.15)和:E[({U≤ g(z,x)}- g(z,x)){x=x}]≤ 0, Z∈ Z、 x∈ 十、 (2.16)E[(g(z,X)-{U≤ g(z,x)}{x=x}]≤ 0, Z∈ Z、 x∈ X.(2.17)加上(2.14)和(2.15)意味着P(D=1 | Z=Z)=g(Z)代表所有Z∈ Z、 和(2.16)和(2.17)implyP(U≤ g(z)| z=z)=P(U≤ g(z)|X=X)=g(z)表示所有z∈ 赞德x∈ X.在支撑Z的不确定性下,这些力矩不等式代表了独立条件U的唯一可观察的含义⊥⊥ Z | X。此外,我们将施加以下力矩条件:E[t(Z,X)-{Z=Z,X=X}]≤ 0, Z∈ Z十、∈ 十、 (2.18)E[{Z=Z,X=X}-t(z,x)]≤ 0, Z∈ Z十、∈ 十、 (2.19)和:E“Ud{Z=Z,X=X}Xz∈Zt(z,x)-{X=X}t(z,X)#≤ 0, Z∈ Z、 x∈ 十、 d∈ {0,1},(2.20)E“Ud{X=X}t(z,X)-{Z=Z,X=X}Xz∈Zt(z,x)#≤ 0, Z∈ Z、 x∈ 十、 d∈ {0, 1}. (2.21)加在一起(2.18)-(2.21)意味着平均独立条件:E[Ud | Z]=E[Ud | X]代表d∈ {0, 1}.
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 14:58:10
特别是,(2.18)和(2.19)确保t(z,x)=P(z=z,x=x),所以(2.20)和(2.21)中的力矩条件意味着:E[Ud({z=z,x=x}P(x=x)-{X=X}P(Z=Z,X=X))]=0,Z∈ Z、 x∈ 十、 d∈ {0,1},或等价地:EUd{Z=Z,X=X}P(Z=Z,X=X)-{X=X}P(X=X)= 0, Z∈ Z、 x∈ 十、 d∈ {0, 1}.在此基础上,附录C.2.1对事实领域的假设2.2进行了全面验证,包括多功能(2.13)的可测量性。通过这种设置,我们可能会感兴趣的是,当决定个体治疗决定的因素Z被修改时,结果变量是如何变化的。例如,让Γ表示所有可测量函数γ:Z的集合→ Z(请注意,最多有几个)。然后我们可以定义:Y?γ=U(1)-Dγ) +UD?γ、 (2.22)随机变量D在哪里?γ由D给出?γ={g(γ(Z))≥ U} 。注意,正如Heckman和Vytlacil(1999)以及Heckman和Vytlacil(2005)所述,我们的反事实γ∈ Γ对(U,U)没有直接影响。我们感兴趣的是随机变量Y的性质?γ、 比如它的平均值或者它的条件平均值。反事实域的多功能性由:G?(Z,U,U,U,θ,γ):=(Y?γ,D?γ)∈ Y×{0,1}:Y?γ=U(1)-Dγ) +UD?γ、 D?γ={g(γ(Z))≥ U}。. (2.23)注意这里我们用Y=Y.再一次,仔细检查这个多功能系统提供了一些简化:G?(Z,U,U,U,θ,γ)=(U,1),如果U≤ g(γ(Z)),(U,0),如果g(γ(Z))<U(2.24),则完全验证反事实域的假设2.3,包括多函数(2.24)的可测性,附录C.2.1.2.3政策转换和决策问题在本文中,我们将以前一节中建立的环境为基础,提出一个基于任何反事实利益对象的价值做出政策决策的框架,该价值可以写成向量Vγ的某个函数的积分。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 14:58:16
特别是,如果是:Ohm × Γ → R是一个可测量的函数,那么我们将把注意力限制在政策制定者感兴趣的环境中,无论是政策转变还是有条件的政策转变。定义2.1(政策转换和条件政策转换)。让我们来看一看:Ohm ×Γ → R是有界的可测函数。Γ的策略转换是一个函数I[Γ](γ):Γ→ R由:I[~n](γ):=Z~n(ω,γ)dP给出。(2.25)此外,如果 A是σ-代数,然后,给定Ais函数I[~n]的条件策略转换:Ohm×Γ → R以使(i)~i[ν]:Ohm×Γ → R是一个Γ-可测量的,以及(ii)对于每个A,I[~I[~n](·,γ)A](γ)=I[~nA](γ)∈ 答:在本文的其余部分中,我们将重点讨论无条件策略转换,因为类似的结果适用于条件策略转换。此外,由于相关随机变量inSee Carneiro等人(2011年)讨论了该设置下的其他可能参数。我们的环境在向量Vγ中给出,我们将在整篇文章中滥用符号,而将重点放在形式为:I[~n](γ):=Z的策略变换上Ohm~n(Vγ(ω))dP=ZV~n(V)dPVγ,(2.26),这显然是定义2.1中一般政策转变的特例。在本文的剩余部分中,我们认为决策者希望选择γ来最大化某些已知函数的策略转换值→ R、 尽管所有结果都同样适用于决策者希望最小化政策转换的情况。出于教学目的,首先考虑一个理想化的决策问题很有用。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 14:58:23
特别是,当(i)真实分布PY,Zis已知,(ii)条件分布PU | Y,Zis已知,以及(iii)反事实条件分布PY?γ| Y,Z,ui已知,决策者的问题变得微不足道:她可以简单地计算φ的策略变换并选择γ的最大值。然而,显然,这种理想化的环境将是罕见的。相反,当决策者只能使用ani时,我们将考虑更现实的情况。i、 d.从真实分布PY,Z中选取大小为n的样本,只知道假设2.1,2.2和2.3得到满足。在这种环境下,决策者可能无法计算政策转换,因为(i)缺乏PY,Z的完美知识,(ii)缺乏PU | Y,Zan的知识,(iii)缺乏PY的知识?γ| Y,Z,U。当结构参数被点识别或部分识别时,这三种情况都可能发生。我们现在准备好定义考虑中的决策问题。定义2.2(决策问题)。决策者的决策问题的特点是:(i)人口,由概率空间表示(Ohm, A、 P)。(ii)行动(或政策)空间,由(Γ,B(Γ))给出。(iii)样本空间,由(ψn,∑ψn,P)给出nY,Z),其中ψn:=(Y×Z)n,典型元素ψ={(yi,zi)}ni=1,带有乘积Borelσ-代数∑ψn:=(B(Y) B(Z))和产品测量PnY,Z.(iv)状态空间,由S×PY,Z给出,其中PY,zi是Y×Z上所有Borel概率测度的集合,S是所有三元组S=(θ,PU | Y,Z,PY?γ| Y,Z,U)的集合,使得(S,PY,Z)满足:(a)θ∈ Θ,(b)PU|Y,Z(U)∈ G-(Y,Z,θ)|Y=Y,Z=Z)=1,(Y,Z)-a.s.,(c)PY?γ| Y,Z,U(Y?γ∈ G(Y,Z,U,θ,γ)|Y=Y,Z=Z,U=U)=1,(Y,Z,U)-a.s.,和(d)元素θ∈ Θ和PU | Y,Zsatisfy:maxj=1,。。。,JEPU | Y,Z×PY,Z[mj(Y,Z,U,θ)]≤ 0
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 14:58:29
(2.27)在我们描述了决策问题之后,很明显,决策者最大化或最小化政策转换的愿望可以使用公理化方法从对V的Borel概率测度空间的偏好关系中推导出来。我们发现这个想法很有趣,但在这里不进行讨论。(v) 由所有可测函数的集合D:ψn给出了具有典型元素D的可行统计决策规则D→ Γ.(vi)目标函数,由函数I[Γ]:Γ×S×PY,Z给出→ R、 被称为依赖于状态的策略变换,其表达式为:I[~n](γ,s):=Z~n(v)d(PY?γ| Y,Z,U×PU | Y,Z×PY,Z)(2.28),其中→ R是一个可测量的函数(其中PY,Zis在写入I[~n](γ,s)时是隐式的)。关于统计决策问题的这种定义,有几点意见是正确的。在第(i)部分和第(ii)部分中,人口和行动空间的定义在某种程度上是标准的,并在前面的章节中得到了激励。在第(iii)部分中,样本空间被简单地视为n-可观测空间的乘积(Y×Z)。这个空间的度量是n-真分布PY,Z的乘积,由此我们可以立即推断出ψ中的样本∈ ψnis被假定为i.i.d。在上一节中,第(iv)部分指出,未观测状态的特征是分布PY,Zan和三元组(θ,PU | Y,Z,PY?γ| Y,Z,U),其中S对应于满足上一节中介绍的模型支撑限制和力矩条件的所有此类三元组。在第五部分中,可行决策规则D的特征是从样本空间ψ到动作空间Γ的所有可测函数的集合。我们将在下面回到这一点。此外,在本文中,我们将交替使用术语policyrules和decision rules。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 14:58:35
最后,定义2.2的第(vi)部分介绍了依赖于状态的策略转换,这是对策略转换的概括,允许其值依赖于第(iv)部分中的未知状态。在真实状态下进行评估时,依赖于状态的策略转换从定义2.1减少为策略转换。事前(即观察样本前)每个决策规则d:ψn→ Γ是一个随机变量。在某些可测性条件下,这意味着依赖于状态的策略变换I[~n](d(ψ),s)也是一个随机变量。剩下的问题是如何使用集合{I[~n](d(ψ),s):(s,PY,Z)∈ S×PY,Z}评估给定的策略规则。不言而喻的是,政策规则∈ D应优先于政策规则D∈ D如果每个PY,Z∈ PY,Zwe有I[~n](d(ψ),s)≤ 对于每一个s,I[~n](d(ψ),s)a.s∈ s在这种情况下,d以概率1在每个状态下传递更大的策略转换值,而不管PY,Z的分布如何。任何满足此条件的对d的偏好关系都将被称为尊重弱优势。然而,除了偏好关系尊重弱优势的要求之外,考虑到定义2.2中的决策问题,决策者应该如何(在规定意义上)在相互竞争的政策选项中进行选择是众所周知的。注:我们可以通过将D作为从ψ到Γ上所有分布的所有可测量函数的集合,来考虑随机决策规则。这不是我们想要的,但在稍微修改的假设下很容易适应。我们参考Manski(2011)的类似定义。还要注意的是,我们的定义意味着,对于每一个(s,PY,Z),I[~n](d(ψ),s)对I[~n](d(ψ),s)的随机优势∈ S×PY,Z。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 14:58:41
根据Strassen定理,如果我们为每个(s,PY,Z)对考虑备选概率空间,我们的定义将等同于随机优势。这一点在查尔斯·曼斯基(Charles Manski)的著作中反复提出,并在曼斯基(2011)中进行了总结。虽然为了发现本文中有趣的结果,不需要特定的偏好关系,但定义决策者决策问题中的最优性概念将是有用的。特别是,我们的结果可能对支持以下偏好关系的决策者特别有用:定义2.3(PAC最大偏好关系)。确定任意κ的样本大小n∈ (0,1)和anyd∈ D、 设cn(·,κ):D→ R++是满足要求的最小值:infPY,Z∈PY,ZP纽约,Zinfs∈SI[~n](d(ψ),s)+cn(d,κ)≥ supγ∈Γinfs∈SI[~n](γ,s)≥ κ. (2.29)然后决定规则d:ψn→ Γ弱地优先于(或弱地支配)决策规则d:ψn→ Γ在κ水平和样本量n,用dκd表示,当且仅当cn(d,κ)≤ cn(d,κ)。判定规则d:ψn→ Γ严格优于(或严格支配)决策规则d:ψn→ Γ,用d表示κd,当且仅当ifcn(d,κ)<cn(d,κ)。决策规则d∈ 如果没有判定规则D,则D将被称为关于4κ的可容许性∈ 这种偏好关系被称为PAC maximin偏好关系,因为它与下一小节中的学习框架密切相关,这反过来又与计算学习理论中Valiant(1984)的PAC学习模型密切相关。我们请读者参考附录A.2,在附录A.2中,我们从计算学习理论讨论了PAC可学习性的概念。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 14:58:48
我们还将在下一小节进一步强调这种联系。对于固定κ∈ (0,1),定义2.3中的偏好关系是一个总排序,这意味着任何两个决策规则d和d都可以根据4κ进行比较。此外,它还有一个分位数的解释。特别是,为了简单起见,假设PY,z包含一个分布π,并将Qπ(κ,d)定义为映射的κ分位数(分布π下):d7→ supγ∈Γinfs∈SI[~n](γ,s)- infs∈SI[~n](d(ψ),s)。(2.30)注意(2.30)中的映射总是正的。然后决定规则d∈ D将优先于被裁定的决定∈ 4κ下的D当且仅当Qπ(κ,D)≤ Qπ(κ,d)。分位数效用最大化已被inManski(1988)和Manski and Tetenov(2014)考虑,并在Rostek(2010)中被公理化。然而,我们的方法与这些方法有很大的不同,尤其是在对待(次)状态方面∈ 在定义2.3中为偏好关系提供公理化超出了本文的范围。事实上,决策者没有理由为了发现本文中的结果有用或有趣而需要定义2.3中的确切偏好关系。然而,以下结果表明,如上所述,在aminimum,4κ具有弱优势。提议2.1。假设假设假设2.1、2.2和2.3成立,且→ [~n\'b,~nub] R是丰富的可测函数。同样,假设γ7→ infs∈SI[~n](γ,s)是(普遍)可测量的。Letd,d∈ D是两个决策规则,假设对于每个PY,Z∈ PY,Zwe有I[~n](d(ψ),s)≤ 对于每一个s,I[~n](d(ψ),s)a.s∈ 那么对于任何κ∈ (0,1)我们有dκd,其中4κ是定义2.3中的偏好关系;也就是说,偏好关系4κ尊重弱优势。证据见附录B。备注2.2。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 14:58:56
通用可测量性是比Borel可测量性更弱的要求,其定义见附录B.2.1。此外,在附录B.2.1中,我们展示了mapγ7→ infs∈SI[~n](γ,s)是普遍可测量的,尽管结果和证明依赖于下一节介绍的假设3.1。因为假设。1目前还没有被引入,我们对γ7施加(通用)可测性→ infs∈SI[~n](γ,s)是本命题中的一个单独假设。我们对定义2.3中的偏好关系的主要兴趣——尤其是与频繁决策理论中遇到的其他偏好关系相比——是它与PAC学习框架的密切联系,这使我们能够使用统计学习理论和经验过程理论的丰富结果来研究其理论性质。在正式介绍这种联系之前,我们将首先回顾我们的示例,以说明定义2.2中给出的各种定义。例1(同时离散选择(续))。对于同时离散选择的例子,我们的兴趣在于反事实随机变量Y的性质?k、 γ,例如它的平均值或它的条件平均值。为了便于说明,我们将重点讨论数量:I[~n](γ)=ZOhm{Y?k,γ(ω)=1}dP,(2.31),这是一个反事实选择概率。注:这个量是函数φ(ω,γ)={Y?k,γ(ω)=1}的策略变换。如果没有太多额外的复杂性,我们可能会对条件选择概率E[{Y?k,γ(ω)=1}|Z]感兴趣;可以很容易地验证,I[~n](ω,γ)=E[~n(ω,γ)| Z](ω),其中(ω,γ)={Y?k,γ(ω)=1}是一种条件策略变换。自始至终,我们假设决策者对选择政策感兴趣∈ Γ使数量最大化(2.31)。我们现在可以正式定义决策者的决策问题。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 14:59:03
人口由概率空间给出(Ohm, A、 P)作用空间由(Γ,B(Γ))给出,其中Γ是所有函数的集合γ=(γk)Kk=1,γk:Z×YK-1.→ Z×YK-1和B(Γ)可作为Γ的功率集。本例中的样本空间由ψn给出,这是n个向量{(yi,zi)}ni=1的所有可能实现。世界的每个状态都由一对(θ,PU | Y,Z)索引,该对满足(2.5)给出的支撑限制以及力矩条件(2.6)和(2.7)。根据定义,该量的状态依赖关系可相对于σ(Z)进行测量,并满足以下条件:I[~I[~n](·γ)A](γ)=ZE[~n(ω,γ)| Z](ω)A(ω)dP=Z{Y?k,γ(ω)=1}A(ω)dP=I[~nA](γ),(2.32)∈ σ(Z)。因为Z和Y是有限的,所以Γ和B(Γ)最多包含很多元素。策略转换由以下公式给出:I[~n](γ,s):=Z{Uk≤ πk(γ(Zk,Y)-k) );θ) 一个可行的统计决策规则是任意可测函数d:ψn→ Γ通过给定对n的访问权来选择一个由γ索引的策略-来自ψn示例2的样本(程序评估(续))。对于程序评估示例,回想一下我们对随机变量Y的属性感兴趣吗?γ、 比如它的平均值或者它的条件平均值。为了便于说明,我们将关注一些反事实政策下的平均结果∈ Γ,再见[Y?γ]。注意,取φ(ω,γ)=Y?γ(ω)(:=Y?(ω,γ)),那么很明显E[Y?γ]=I[~n](γ),因此反事实策略的平均效果是随机变量Y的策略变换?γ(ω). 如果没有额外的并发症,我们可能会对条件平均效应e[Y?γ| X]感兴趣。可以很容易地证明,I[~n](ω,γ)=E[~n(ω,γ)|X](ω),其中ω(ω,γ)=Y?γ(ω)是一个条件策略变换。我们将自始至终假设决策者有兴趣使E[Y?γ]的价值最大化。我们现在可以正式确定决策者的决策问题。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 14:59:09
人口由概率空间给出(Ohm, A、 P)作用空间由(Γ,B(Γ))给出,其中Γ是所有函数γ:Z的集合→ Z和B(Γ)是Γ的幂集。样本空间由ψn=(Y×{0,1}×Z)nw和一个典型元素ψ=((yi,di,zi))ni=1给出。状态空间S由S=(θ,PU,U,U | Y,Z,PY?γ| U,U,U,Y,Z)给出,其中PU,U,U | Y,Zand-PY?γ| U,U,U,Y,Zare满足支承约束(2.12)和力矩条件(2.14)-(2.19)的任何随机变量。最后,一个可行的统计决策规则是任何可测函数d:ψn→ Γ通过给定对n的访问权来选择一个由γ索引的策略-样本来自ψn.2.4理论结果的路线图:事前和事后分析根据上一小节中定义的决策者决策问题,我们即将得出的理论结果可以根据其是否适用于事前(即观察样本之前)或事后(即观察样本之后)进行划分。回忆一下定义2.3中的偏好关系。在这种偏好关系下,决策规则d的“性能”或“质量”可以使用值cn(d,κ)来衡量。因此,cn(d,κ)的价值将是本文剩余部分中事前和事后理论分析的主要焦点。我们在事前理论结果中的主要关注点是为政策空间的可学习性建立充分的条件,我们将在本小节中进一步讨论。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 14:59:17
我们事后理论分析的主要重点是确定某些决策规则的cn(d,κ)值的界,以及决策规则集d的界∈ D获得一小部分cn(D,κ)。事实上,通过定义,该量是可测量的,与σ(X)有关,并且满足:I[~I[~n](·γ)A](γ)=ZE[~n(ω,γ)|X](ω)A(ω)dP=ZY?γ(ω)A(ω)dP=I[~nA](γ),(2.33)对于每个A∈ σ(X)。因为Z是有限的,所以Γ和B(Γ)最多包含很多元素。2.4.1政策空间可学习性为了理解事前的理论分析,我们必须正式引入政策空间可学习性的概念,之所以命名是因为它与计算学习理论中的可学习性概念有关。直觉上,一个策略空间Γ是可以学习的,如果,对于某些决策规则d∈ D、 定义2中的cn(D,κ)值。随着n的增加,3可以任意变小。这一概念将在本小节中予以明确。附录A.2回顾了计算学习理论中的可学习性概念。我们认为,根据定义2.3中的偏好关系,在统计学习环境中,政策选择问题和选择最佳分类问题之间的概念差异小于最初可能出现的差异。在这两种情况下,我们都希望选择一个基于有限样本的决策规则,该样本将根据类似标准在尚未看到的样本中表现良好。环境之间的本质区别在于,即使是手头的样本,也无法观察到反事实政策的表现。当然,如果决策者有一个计量经济学模型,可以用来确定政策实验的反事实结果,这就不是问题。前面小节中的通用模型正是为了实现这一目的。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 14:59:23
鉴于定义2.3中的偏好关系,决策者面临的决策问题与学习问题非常相似,这一点在以下定义与附录a.2中的PAC可学习性定义进行比较时显而易见。定义2.4(PAMPAC可学习性)。在假设2.1、2.2和2.3下,政策空间Γ是政策不可知的maximin PAC learnable(PAMPAC),与政策转换Γ:V有关→ 如果存在函数ζΓ:R++×(0,1)→ N使得,对于任何(c,κ)∈ R++×(0,1)和任意分布PY,ZoverY×Z,如果n≥ ζΓ(c,κ)然后有一些决策过程d:ψn→ Γ满意:英菲,Z∈PY,ZP纽约,Zinfs∈SI[~n](d(ψ),s)+c≥ supγ∈Γinfs∈SI[~n](γ,s)≥ κ. (2.34)也就是说,如果存在一些决策规则d:ψn,则策略空间是PAMPAC可学习的→ R在最坏的情况下(次)状态∈ S、 与值非常接近:supγ∈Γinfs∈SI[~n](γ,s),对于足够大(但有限)的样本,概率很高。根据定义2.3中的偏好关系,PAMPAC可学习性意味着,随着样本量的增加,(c,κ)中的每个点-空间必须最终(即对于足够大的n)位于函数cn(d,·)之上:(0,1)→ R++用于一些决策规则d。图3说明了这个想法。通过这种方式,我们可以看到,PAMPAC可学习性并不是用来确定可接受的决策规则或做出政策选择的必要条件。然而,对于政策不可知的极小极大PAC可学习性,可能存在实质上几乎相同的定义,但决策程序d:ψn除外→ Γ必须满足:infPY,Z∈PY,ZP纽约,Z小吃∈SI[~n](d(ψ),s)- C≤ γ干扰素∈Γsups∈SI[~n](γ,s)≥ κ. (2.35)图3:该图说明了定义2.4中PAMPAC可学习性的概念。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 14:59:30
给定一对(c,κ),PAMPAClearnability保证存在一些有限n和一些决策规则d:ψn→ 使得cn(d,κ)的图完全位于点(c,κ)之下。例如,对于图中的(c,κ),存在样本量和决策规则d,如(2.34)满足。请注意,(2.34)也分别满足nand d和nand d处的点(c,κ)和(c,κ)。为了验证PAMPAC的可学习性,所有点(c,κ)必须保持相同的可学习性;特别是,在图中,我们需要找到一个样本大小和决策规则d,这样cn(d,κ)的图形就完全位于点(c,κ)的下方。在不可学习的环境中,对任何给定决策规则的理论性能的事前限制,使其成为理论分析的重要对象。尽管PAMPAC可学习性似乎是一个薄弱的概念,但在一些琐碎的环境中,政策空间Γ可能不是PAMPAC可学习的。例1(同时离散选择(续))。考虑一下示例1的一般设置。为简单起见,假设K=1,并考虑以下修改。设Z=[-1,1]和Θ=[-1,1]设πk(Zk,Y)-Kθ) =πk(Zk;θ)=sin(Zk/θ)。那么Yk由方程确定:Yk={sin(Zk/θ)≥ 英国}。现在考虑一个包含所有函数γ:Z的策略空间→ Z、 假设我们对策略变换感兴趣:I[~n](γ):=ZOhmν(ω,γ)dP=ZOhm{Y?k,γ(ω)=1}dP,其中φ(ω,γ)={Y?k,γ(ω)=1}和:Y?k、 γ={sin(γ(Zk)/θ)≥ 英国}。在这种情况下,我们声称政策空间Γ可能无法从政策空间Γ中学习。重要的是要认识到,PAMPAC可学习性的可能失败并不取决于本例中正弦函数的选择,该函数仅用于说明目的。事实上,下面的例子表明这个想法更为普遍。示例2(项目评估(续))。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 14:59:37
考虑示例2的一般设置,并进行以下修改。设Z=[-1,1]并设Θ表示值为[-1, 1].否则,保持事实领域的所有其他方面不变。现在考虑一个包含所有连续函数γ:Z的策略空间→ Z.假设我们仍然对φ(ω,γ)=Y的策略变换感兴趣?γ(ω),其中:Y?γ=U(1)-Dγ) +UD?γ、 (2.36)随机变量D在哪里?γ由以下公式给出:D?γ={θ(γ(Z))≥ U} 。在这种情况下,我们声称政策空间Γ可能无法从政策空间Γ中学习。这些例子说明,政策空间的可学习性可能存在局限性。在第一个样本中,可学习性可能会失败,因为结构函数决定了Y?的反事实值?k、 γ太“复杂”,因此无法用任何有限的数据充分近似(或“学习”)。类似的解释适用于第二个例子,尤其是决定D?值的结构函数?γ. 在接下来的部分中,我们将探讨与某些功能空间的复杂性约束精确相关的策略空间的可学习性的充分条件。在建立一个特定的策略空间是可学习的,这是一个事前(即观察样本之前)的概念之后,我们将讨论如何评估特定的决策规则,这是一个事后(即观察样本之后)的概念。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 14:59:43
这两个部分都与决策问题的理论评估有关。2.5定义2.4中的(2.34)建议了向前的路径,正如引言中所讨论的那样,为了确定给定的政策空间Γ是否是可学习的,首先提供一个凹函数的特征是有用的:I`b[Γ](γ):=infs∈SI[~n](γ,s),Iub[~n](γ):=sups∈SI[~n](γ,s)。注意,在真实分布PY,Z处,函数I`b[~n](γ)用作策略转换I[~n](γ)的下限。类似地,函数Iub[~n](γ)用作上限。回想一下,这一想法在导言中如图1所示。在PAMPAC可学习性的情况下,如果在某些条件下可以提供下包络函数I`b[~n](γ)的可处理特征,那么确定策略空间是否为PAMPAC可学习性将导致找到决策规则d:ψn的问题→ Γ满足:infPY,Z∈PY,ZP纽约,Zsupγ∈ΓI`b[Γ](γ)- I`b[~n](d(ψ))≤ C≥ κ、 (2.37)对于足够大(但有限)的n.因此,在下一节中,我们将在返回到第4节中的政策选择问题之前,重点获得包络函数的可处理特征。一旦给出了下(或上)包络函数的易于处理的特征,我们将给出PAMPAC可学习性的充分条件。除了其对我们事前分析的重要性外,我们还将看到,在第5.3节“政策转换的包络函数”3中,包络函数的可处理性表征对于我们事后分析决策者的决策问题也至关重要。1初步在本节中,我们推导了上一节中定义的包络函数I`b[~n](γ)和Iub[~n](γ)的有用特征。我们将证明这些包络函数可以写成用γ参数化的优化问题的值函数∈ Γ.
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 14:59:49
在得出我们的可学习性结果时,以及在接下来的章节中,对于我们的事后样本分析,我们的具体描述将非常重要。然而,对于那些对部分识别感兴趣的人来说,本节中的结果可能具有实质性的独立意义。在给出本节的主要结果之前,我们首先确定结构参数和政策转换的识别集。一般来说,这些识别集必须相对于分布Py,Z进行定义。为了便于符号化,这一点在本节中一直是隐式的。我们现在开始介绍一些额外的符号。对于下一定义中的一些符号,读者可以参考附录A,其中讨论了arandom集合中的可选择性概念。定义3.1(选择分布)。集合PU | Y,Z(θ)包含所有正则条件概率度量PU | Y,Z,每个PU | Y,Z∈ PU | Y,Z(θ)是某些选择U的分布∈Sel(G)-(·, θ)); 即:PU | Y,Z(θ):=PU|Y,Z:U~ PU | Y,Zf对于某些U∈ Sel(G)-(·, θ)). (3.1)此外,收集?γ| Y,Z,U(θ,γ)包含所有正则条件概率测度PY?γ| Y,Z,通常是每个PY?γ| Y,Z,U∈ 皮耶?γ| Y,Z,U(θ,γ)是某些选择Y的分布吗?γ∈ Sel(G?(·,θ,γ));例如,参见Chesher和Rosen(2017a)中的定义3以及相关讨论。显然,集合PU | Y,Z(θ)也依赖于PY,Z,尽管我们始终抑制这种对符号简单性的依赖。是:皮耶?γ| Y,Z,U(θ,γ):=nPY?γ| Y,Z,U(θ,γ):Y?γ~ 皮耶?γ| Y,Z,U(θ,γ)对于某些Y?γ∈ Sel(G?(·,θ,γ))o.(3.2)我们将很快看到,假设2.1中U的紧性是非常方便的。实际上,请注意,在U的紧性下,集合PU | Y,Z(θ)对于任何θ都是一致紧的。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 14:59:55
如果PU | Y,Z(θ)也在弱态中闭合*拓扑,则集合PU | Y,Z(θ)在弱*拓扑结构,允许对声明进行简化,并对许多结果进行证明。然而,由于-是闭合的,后一个结果直接来自这样一个事实,即每个选择U∈ Sel(G)-(·,θ))由一个紧集支持。因此,在我们的整个论述中,我们可以利用这样一个事实,即PU | Y,Z(θ)在弱空间中是紧的*拓扑结构。除了这个结果带来的简化之外,它还解决了一个与从相同分布的随机集进行选择有关的有意义的问题。事实上,两个相同分布的随机集可能具有不同的可测量选择集,尽管*他们可测量的选择的结束总是一致的。因此,U的紧性完全解决了这个问题,它确保集合PU | Y,Z(θ)在弱空间中是闭合的*拓扑结构;换句话说,在假设2.1和2.2下,这意味着两个相同分布的随机集G-(Y,Z,θ)和G-(Y,Z,θ)(参见附录A中的定义A.2)将具有相同的可测量选择集。通过定义3.1规定的附加符号,我们现在对结构参数的定义如下:定义3.2(确定的结构参数集)。在假设2.1和2.2下,确定的集合Θ*结构参数(关于分布PY,Z)的计算公式为:Θ*:=θ ∈ Θ:infPU | Y,Z∈PU | Y,Z(θ)maxj=1,。。。,JEPU | Y,Z×PY,Z[mj(Y,Z,u,θ)]≤ 0.
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 15:00:02
(3.3)PU | Y,Z(θ)在弱界面中的紧致性*拓扑结构与力矩条件的有界性相结合,确保了Θ定义的精确性*已获得。虽然我们在本文中的重点不是确定的结构参数集,但这一定义将有助于定义政策转变的确定集以及证明。为了说明政策转换识别集的定义,我们需要首先定义以下功能:*(θ,γ,I,PY?γ| Y,Z,U,PU | Y,Z):=max艾比?γ| Y,Z,U×PU | Y,Z×PY,Z[ν(Vγ)-[I], maxj=1,。。。,JEPU | Y,Z×PY,Z[mj(Y,Z,u,θ)]. (3.4)清楚地表明了收集的重要性?γ| Y,Z,U(θ,γ)也依赖于PY,Z,U,尽管为了符号的简单性,我们抑制了这种依赖性。见Corbae et al.(2009)第575页定理9.9.2,以及相关讨论。见第79页Molchanov(2017)定理1.4.3。这是在注意到映射PU | Y,Z7之后的极值定理→ 当矩函数mj一致有界时,EPU | Y,Z×PY,Z[mj(Y,Z,u,θ)]是连续的。直观地说,当且仅当(i)在分布PY,zan和对(θ,PU | Y,Z)满足所有力矩条件,并且(ii)如果点“i”是输入(θ,γ,PY?γ| Y,Z,U,PU | Y,Z)的策略转换的结果值时,该函数小于零。因此,它代表了将点“I”包含在策略转换的标识集中所需的所有条件。我们现在有以下定义:定义3.3(为政策转换确定的集合)。在假设2.1、2.2和2.3下,对于任何γ∈ ΓI[Γ](γ)(关于分布PY,Z)的识别集由以下公式给出:*[φ](γ) :=[θ∈Θ*I[~n](θ,γ),(3.5)式中:I[~n](θ,γ):=我∈ R:PU|Y,Z∈ PU | Y,Z(θ)和PY?γ| Y,Z,U∈ 皮耶?γ| Y,Z,U(θ,γ)满足I*[φ]θ、 γ,我,PY?γ| Y,Z,U,PU | Y,Z≤ 0.
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 15:00:08
(3.6)我们在本节中的主要结果将试图为政策转换的识别集提供更具洞察力的特征,这对于下一节中考虑的政策选择问题也至关重要。然而,在说明我们的主要识别结果之前,我们需要以下技术假设。假设3.1(误差范围)。(i) (线性最小值)存在δ>0和C>0的值,因此对于每个θ∈ Θ:infPU | Y,Z∈PU | Y,Z(θ)maxj=1,。。。,J | EPU | Y,Z×PY,Z[mj(Y,Z,u,θ)]|+≥ Cmin{δ,d(θ,Θ)*)}. (3.7)(ii)(局部反事实稳健性)存在一个值C≥ 对于任何θ∈ Θ*δ:={θ:d(θ,Θ)*) ≤ δ} :infPU | Y,Z∈PU | Y,Z(θ)infPY?γ| Y,Z,U∈皮耶?γ| Y,Z,U(θ,γ)Z|(v)dPVγ≥ infθ*∈Θ*infPU | Y,Z∈PU | Y,Z(θ)*)不舒服?γ| Y,Z,U∈皮耶?γ| Y,Z,U(θ)*,γ) Z k(v)dPVγ- Cd(θ,Θ)*), (3.8)和:supPU | Y,Z∈PU | Y,Z(θ)supPY?γ| Y,Z,U∈皮耶?γ| Y,Z,U(θ,γ)Z|(v)dPVγ≤ supθ*∈Θ*补充| Y,Z∈PU | Y,Z(θ)*)苏比?γ| Y,Z,U∈皮耶?γ| Y,Z,U(θ)*,γ) Z~n(v)dPVγ+Cd(θ,Θ)*). (3.9)直觉上,假设3.1有两种说法。首先,假设的第(i)部分是一个全局条件,它要求∈ Θ \\ Θ*, 至少有一个力矩函数可以被(3.7)右边的函数限定在下面。一般来说,这种情况与文献中以前的情况非常相似;例如,参见Chernozhukov等人(2007)第4节中的“部分识别条件”。2.此外,参见Kaido等人(2019年)对类似情况的回顾。主要的差异来自于所有PU | Y,Z条件必须保持的事实∈ PU | Y,Z(θ),因为本文中的力矩条件允许依赖于潜变量。验证条件(i)通常可以通过首先列举包含θ的所有场景来完成/∈ Θ*, 然后验证每个场景的条件是否成立。这正是在验证示例中的假设时使用的策略。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 15:00:14
还请注意,如果PU | Y,Z(θ)为空,即当G-(Y,Z,θ)允许进行不可测量的选择,或者当力矩条件均不取决于结构参数时。假设3.1的第(ii)部分似乎是全新的。直观地说,(3.8)是一种局部条件,当我们将θ稍微移到识别集之外时,要求φ积分的最小值不要减小得太快。在相反的方向上,(3.9)要求当我们将θ稍微移到识别集之外时,积分的最大值不会增加太快。例如,如果积分的值可以在已识别集的边界上不连续变化,则会违反这些条件。我们将该条件称为局部反事实稳健性条件,因为它要求结构参数值的微小变化不会导致感兴趣的反事实数量值的不连续变化。有趣的是,假设3.1中的两个条件都与优化文献中误差界理论中的典型假设有关。最后,请注意,第(i)部分和第(ii)部分中的δ值是相同的。然而,这不是限制性的,因为第(i)部分和第(ii)部分可以针对两个不同的值δ(i),δ(ii)>0建立,然后δ可以被视为δ=min{δ(i),δ(ii)}。在实践中,假设3.1的第(ii)部分可能很难验证。因此,我们引入以下假设作为假设3.1第(ii)部分的替代:假设3.2(误差范围(2)(ii))。对于某些δ>0,存在值``≥ 0(可能取决于δ),因此:-(y,z,θ))≤ `· d(θ,Θ)-(y,z,u)∩ Θ*δ) ,(y,z)-a、 美国为所有美国∈ U和θ∈ Θ*δ、 (3.10)d(y?,G?(y,z,u,θ,γ))≤ `· d(θ,Θ)(v,γ)∩ Θ*δ) ,(y,z,u)- a、 就为了所有人吗?∈ Yθ∈ Θ*δ.
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 15:00:21
(3.11)在哪里-(y,z,u)和Θ?(v,γ)定义为:Θ-(y,z,u):=θ:u∈ G-(y,z,θ), Θ?(v,γ):={θ:y?∈ G(y,z,u,θ,γ)}。此外,函数φ:V→ R在(u,y?)中是有界的、可测的和Lipschitz连续的用Lipschitz常数L~n。下面的引理表明假设3.2对于假设3.1的第(ii)部分是有效的。在这个过程中,引理在假设3.1和随机集G的某些Lipschitz行为之间建立了有趣的联系-G呢?关于结构参数θ∈ Θ.参见庞(1997)的介绍。引理3.1。假设假设满足假设2.1、2.2和2.3。最后,假设-(·,θ)和g?(·,θ,γ)对于每个θ几乎肯定是非空的∈ Θ*. 那么假设3.2就意味着假设3.1(ii),其中C=L~nmax{`,`}。证据见附录B。可以证明,条件(3.10)和(3.11)相当于集值映射的Lipschitz连续性条件的几乎确定版本,其中两个集之间的距离由Compeiu–Hausdorff距离度量。这些条件的本地化版本称为度量正则性条件,它也与优化理论中的约束条件密切相关。有关讨论,请参见Dontchev andRockafellar(2009)第3.3章和Io offe(2016)。3.2政策转换的包络函数我们最终可以转向本节的主要目标,这是界定政策转换I[~n](γ)的问题。理论上,可以通过求解两个(非常)复杂的约束优化问题来获得I[~n](γ)的界,这两个问题搜索所有分布PU | Y,Zand PY?γ| Y,Z,Uthat满足我们最大化和最小化政策转换的建模假设。然而,很明显,这种优化问题在大多数实际情况下是不可行的。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 15:00:27
下面的结果显示了策略转换边界的可伸缩公式,这对下一节很重要。定理3.1(策略转换的边界)。假设假设2.1、2.2、2.3和3.1都成立。此外,假设:V→ [~n\'b,~nub] R是一个有界的可测函数,对于每个γ∈ Γ,随机集G-(·,θ)和G?(·,θ,γ)对于每个θ几乎肯定是非空的∈ Θ*. 然后我*[~n](γ)=[I`b[~n](γ),Iub[~n](γ)],其中:I`b[~n](γ)=infθ∈Θmaxλj∈{0,1}Zinfu∈G-(y,z,θ)infy?∈G(y,z,u,θ,γ)ν(v)+u*JXj=1λjmj(y,z,u,θ)!dPY,Z,(3.12)Iub[~n](γ)=supθ∈Θminλj∈{0,1}Zsupu∈G-(y,z,θ)supy?∈G(y,z,u,θ,γ)ν(v)-u*JXj=1λjmj(y,z,u,θ)!dPY,Z,(3.13)式中*∈ R+是任何满足以下条件的值:u*≥ 最大值CC,(k ub)- ~n\'b)Cδ, (3.14)式中,C,Candδ来自假设3.1。证据见附录B。定理3.1指出,识别集的闭凸包I?定义3.3中关于策略变换I的定义[ν](γ)可计算为两个优化问题的解。有趣的是,这些优化问题与受均衡约束的数学规划问题(MPEC)的文献中发现的问题密切相关,这些问题以前在经济学中被应用于社会规划问题和斯塔克伯格博弈。理论3中的上下包络函数。1可能最恰当地描述为惩罚优化问题,带有u*(3.14)惩罚参数的作用。结果的陈述和证明都依赖于变分分析中关于误差界的文献中的精确罚函数理论。该定理使用errorbounds假设3.1,以表明惩罚u*可以被认为是有限的。这对于在前面章节中进行的政策决策问题的理论分析非常重要。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 15:00:33
此外,隐式定理3.1表明λj的值仅取决于参数θ,这一点将在下一节中使用。从识别的角度来看,包络函数通常不会给出策略变换的明确界限。但是,在任何其他条件下,确保识别集*(γ) 对于每个γ都是封闭和凸的∈ Γ,定理3.1为策略转换的识别集提供了(γ中的点)清晰的特征。最后,当利益对象是条件策略转换时,结果很容易修改。定理3.1最有趣的特征之一是,当反事实的利益对象是一种特定形式时,不需要计算识别集Θ*结构参数,以确定感兴趣的反事实对象。此外,问题中的不可观测项会被显示出来,当识别集*(γ) 这是封闭和凸的,没有任何信息损失。这一点也可以转化为下一节研究的政策决策问题。结构参数和不可观测数据直观地起到了连接事实域和反事实域的中介作用。然而,在计算了定理3.1中的包络函数后,它们在政策选择问题中不再发挥作用。虽然我们不会在正文中详细讨论可测性问题,但我们注意到附录B中的引理B.1。2.1证明了优化问题中的被积函数是普遍可测的;也就是说,对于任何概率测度PY,Z的完成,都是可测量的。这个结果的证明主要依赖于G-G呢?是可测量的。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 15:00:39
此外,附录B.2.1中的命题B.1表明:→ I`b[~n](γ),Iub[~n](γ)是相对于普遍σ可测量的-Γ上的代数(由Borelσ生成)-代数)。在接下来的政策选择章节中,这些结果将非常重要。现在,我们回到前面给出的例子来讨论我们的识别结果。我们将在示例中首先验证假设3.1,并展示引理3.1的帮助。例1(同时离散选择(续))。再次考虑关于同步离散化的示例1,回想一下,我们使用(2.6)和(2.7)中的动量条件施加了中值零和中值独立性限制。这个例子对假设3.1的验证提出了挑战,因为教科书处理的不连续性,见Luo等人(1996)。参见Dolgopolik(2016)的综述。函数φ(v)={πk(γ(z,y-k) );θ) ≥ u} 。事实上,在我们目前的假设下,假设3.1并不令人满意。要理解直觉,请关注假设3.1(ii)。这一假设的问题只有在某些情况下才会出现∈ {1,…,K}和一些z∈ Z和y-K∈ YK-我们有(i)反事实截断值πk(γ(z,y-k) );θ*) = 在某个θ处为0*∈ Θ*, 如果(ii)P(Yk=1 | Zk=z,Y-k=y-k) 6=0.5,其中(z,y-k) =γ(z,y)-k) 。在这种刀口情况下,θ的变化很小*∈ Θ*到某个θ/∈ Θ*能引起P(Y?γ,k=1)的不连续变化。附录C.1.2中给出了该故障的完整描述,包括各种情况的说明。然而,通过稍微加强力矩条件,我们可以满足本例中的假设3.1。关键是对Ukaroundzero分布的平滑度引入额外的假设。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 15:00:46
特别是,我们将用以下条件替换(2.6)和(2.7)中的力矩条件:{英国≤ πk(z,y)-Kθ)}-max{Lπk(z,y)-Kθ), 0} -0.5{Zk=z,Y-k=y-k}≤ 0,(3.15)E0.5-{英国≤ πk(z,y)-Kθ)}-麦克斯{-Lπk(z,y)-Kθ), 0}{Zk=z,Y-k=y-k}≤ 0,(3.16)对于k=1,K、 尽管如此∈ Z和所有y-k、 y-K∈ YK-1.除了中位数零/中位数相关假设外,这些新的力矩条件还限制了U上任意接近零的概率质量,这是满足假设3.1的关键。还要注意的是,尽管这些力矩条件会隐含地对可获得的反事实选择概率施加约束,但很容易验证它们不会对结构参数θ集施加任何额外约束∈ Θ这可以使观察到的分布合理化(在定义3.2的意义上),因此不会违反备注2.1中引入的无回溯原则。有了这些新的力矩条件,可以证明假设3.1是满足的。回想一下,当第一次介绍示例1时,我们假设πkis是(Zk,Y)的已知可测量函数-k) 这是线性参数θ,每个(z,y)都有一个远离零的梯度(相对于θ)-k) 。我们得出πkis-Lipschitz在θ中,并且满足“反向Lipschitz”条件;也就是说,对于每个(z,y-k) 我们有:Lk | |θ- θ*|| ≤ |πk(z,y)-Kθ) -πk(z,y)-Kθ*)| ≤ Lk | |θ- θ*||,对于某些Lk,Lk>0。现在定义:τ:=minkmin(z,y-k) | 0.5-P(Yk=1 | Z=Z,Y-k=y-k) | s.t.| 0.5-P(Yk=1 | Z=Z,Y-k=y-k) |>0。(3.17)然后,附录C.1.2中的分析表明,假设3.1对C=LL、C=LL和δ=τ/(LL)进行了验证,其中L=minkland L=minkLk。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 15:00:52
在定理3.1中,我们可以接受惩罚*要获得任何令人满意的价值:u*≥ 最大值LL,τ.定理3.1表示,作为γ的函数,I[~n](γ)=P(Y?γ=1)上的上下包络分别由(3.12)和(3.13)给出。备注3.1(反事实一致性)。回想一下,定理3.1仅适用于随机集G-(·,θ)和G?(·,θ,γ)对于每个θ几乎肯定是非空的∈ Θ*. 在同时离散选择的例子中,反事实映射G?(·,θ,γ)几乎可以肯定是非空的,这与这些模型中众所周知的相干性问题有关。特别是,对于不可观测向量(u,…,uK)的给定实例,可能不存在任何反事实内生结果变量向量(y?1,γ,…,y?K,γ),该向量可解(2.8)表示的方程组。然而,我们注意到,这个问题与我们的特定方法无关,可以通过(i)对U的子集进行条件化分析,以确保(2.8)中方程组的解,或者(ii)对参数空间施加某些约束,以确保(2.8)中方程组的解的存在来解决。我们请读者参阅Chesherand Rosen(2020年)对这一问题的详细讨论。然而,这个“反事实一致性”问题能否在不违反备注2.1中的无回溯原则的情况下得到解决,似乎是一个公开的问题。例2(项目评估(续))。再次考虑关于项目评估的示例2。假设3.1的验证见附录C.2.2,并使用引理3.1验证假设3.1(ii)。值得注意的是,我们发现假设3.1对于δ>0且C=C=1的任何值都是满足的。因此我们可以接受惩罚*= 1.
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 15:00:58
然后,定理3.1表示,作为γ的函数,I[~n](γ)=E[Y?γ上的上下包络分别由(3.12)和(3.13)给出。4关于最优策略的可学习性在本节中,我们提供了PAMPAC可学习性的充分条件。首先,以下命题阐明了上一节中的下包络函数与可学习性概念之间的联系。提议4.1。假设假设假设2.1、2.2、2.3和3.1成立。此外,假设:V→ [~n\'b,~nub]R是一个有界的可测函数,对于每个γ∈ Γ,随机集G-(·,θ)和G?(·,θ,γ)区域对于每个θ几乎肯定是非空的∈ Θ*. 那么一个策略空间Γ是关于政策变换的PAMPAC可学习的当且仅当:infPY,Z∈PY,ZP纽约,Zsupγ∈ΓI`b[Γ](γ)- I`b[~n](d(ψ))≤ C≥ κ、 (4.1)其中I`b[Γ]:Γ→ R是定理3.1中的下包络函数。备注4.1。根据附录B.2.1中的命题B.1,映射ψ7→ I`b[ψ](d(ψ))是普遍可测的;也就是说,对于任何PY,Z的完成,都是可测量的∈ PY,Z。因此,如果必要的话,可以使用外部度量为(4.1)中的事件分配唯一的概率。特别是,下包络函数完全表征了策略空间Γ相对于Γ的PAMPAC可学习性。因此,毫不奇怪,我们对于政策空间是PAMPAC可学习的充分条件将与定理3.1中的下包络函数的行为有关。接下来,我们引入一个熵增长条件,该条件将作为对矩函数和函数φ所允许的复杂性的约束。为了引入熵增长条件,我们必须首先定义一类函数的覆盖数和度量熵。定义4.1(覆盖数、度量熵)。设(T,ρ)为半度量空间。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 15:01:05
T的覆盖是其并集包含T作为子集的任何集合。对于任何ε>0的情况,用n(ε,T,ρ)表示的T的覆盖数是ρ的最小数-球需要形成ε-掩蔽度量熵是覆盖数的对数。定义4.2(熵增长条件)。设F是可测空间(X,AX)上具有包络F的一类可测实值函数。F类满足熵增长条件,如果:∈Qnlog N(ε,F,| |·| | Q,2)=o(N),(4.2)对于每一个ε>0的原子,其概率为1/N的整数倍的所有离散概率测度Qnon X取上确界。该条件改编自Dudley等人(1991)(定理6,第500页)中的一个条件,该条件与其他温和条件相结合,证明了一类函数是一致的GlivenkoCantelli。熵增长条件本质上是说,对于某些空间x中的任意集合Xnof n点(x,…,xn),覆盖该集合所需的半径ε>0的最小球数的对数:F | xn:={(F(x),…,F(xn)):F∈ F} Rn,是o(n)阶。这种情况的充分条件可以与文献中以前使用的条件联系起来。例如,(4.2)如果功能类别为VC类型(c.f.Chernozhukovet al.(2013)、Belloni et al.(2019)),如果类别满足Pollard的可管理性标准(c.f.Pollard(1990)、Andrews and Shi(2013)、Andrews and Shi(2017)),或者如果功能类别已知为auniform Donsker类别,则满足。下面的定理表明,如果策略分析问题中的某些函数类服从熵增长条件,那么每个策略空间都是PAMPAC可学习的。为了说明结果,我们必须首先产生一类重要的函数。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-4-26 15:01:11
设∧={0,1}J,对于固定三元组(θ,γ,λ)∈ Θ×Γ×∧,leth`b(·,·,θ,γ,λ):Y×Z→ R由以下公式给出:h`b(y,z,θ,γ,λ):=infu∈G-(y,z,θ)infy?∈G(y,z,u,θ,γ)ν(v)+u*JXj=1λjmj(y,z,u,θ)!。(4.3)另见范德法特和韦尔纳(1996)第167页的定理2.8.1。注意,h`b(·,·,θ,γ,λ)正是定理3.1中下包络函数中的被积函数。现在定义函数类:H`b:={H`b(·,·,θ,γ,λ):Y×Z→ R:(θ,γ,λ)∈ Θ × Γ × Λ}. (4.4)然后我们得到以下结果:定理4.1。假设假设假设2.1、2.2、2.3和3.1成立。此外,假设:V→ [~n\'b,~nub]R是一个有界的可测函数,对于每个γ∈ Γ,随机集G-(·,θ)和G?(·,θ,γ)区域对于每个θ几乎肯定是非空的∈ Θ*. 修正任何ε>0的值。(i) 如果函数类H`b满足熵增长条件,那么每个策略空间都是可以通过政策转换的。此外,对于任何c>0,我们有:supPY,Z∈PY,ZP纽约,Zsupγ∈Γinfs∈SI[~n](γ,s)- infs∈SI[~n](d(ψ),s)≥ C= O(r(n)),(4.5)式中:r(n):=maxN-1/2,n-1/2supQ∈qnqlogn(ε,H`b,| |·| | Q,2). (4.6)(ii)如果函数类别:Φ:={~n(·u,y?):Y×Z→ R:(u,y?)∈ U×Y?},(4.7)Mj:={Mj(·u,θ):Y×Z→ R:(u,θ)∈ U×Θ},j=1,J、 (4.8)是一致有界的,并且满足熵增长条件,那么H`b也是。此外,对于anyc>0,我们有:supPY,Z∈PY,ZP纽约,Zsupγ∈Γinfs∈SI[~n](γ,s)- infs∈SI[~n](d(ψ),s)≥ C= O(r(n)),(4.9)式中:r(n):=maxN-1/2,n-1/2supQ∈Qnvuutlog N(ε/4,Φ,| |·| | Q,2)+JXj=1log N(ε/2,Mj,| |·| Q,2). (4.10)证据。见附录B。第(i)部分的证明通过提出一个特定的决策程序进行,然后表明当函数类满足熵增长条件时,所提出的决策程序满足定义2.4中的PAMPAC可学习性要求。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群