全部版块 我的主页
论坛 经济学人 二区 外文文献专区
2022-6-23 23:42:34
请注意,午夜的不连续性将导致白天变为周末,反之亦然(周五晚上变为周六上午)。(e) 工作总时间的一部分,即驾驶到驾驶员处的时间,即无报酬。图10:RideAustin Marketplace的基本旅行事实——总工作时间中未付工资的部分。请注意,这一次在RideAustin数据中是实质性的,平均约为30%。在数值计算中,行程长度分布为形状为2的威布尔分布。图10B显示了无喘振跳闸的跳闸长度分布。形状近似值为浪涌系数-60-40-2002040年收入差异支付=状态quo1 2 3 4 5波动系数支付=以秒为单位的基本票价行程时间的加性波动(29.0699.0)(699.03598.0)图11:与图6相同,但波动系数被用来模拟频繁、有价值波动的世界。合理,因为形状为2.6的威布尔分布最适合数据(平均值设置为经验平均值)。图10c显示了浪涌系数的平均长度分布。也许,平均长度在波动系数中是非单调的,首先随着波动系数减小,然后增大。我们无法直接测试数字中的说法,即在典型的喘振中,驾驶员将能够接收和拒绝多个跳闸请求(λλ2→1> 1,但很小)-我们没有观察到驾驶员开放接受请求,除非他们实际收到了行程请求。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-23 23:42:37
与出行差异匹配技术不同,我们不能将完成一次出行的驾驶员作为代理人使用–测量结果可能会对驾驶员的日志记录敏感,并且出行的终点位置不能代表所有出行。尽管现实偏离了模型,但关于加性与乘性激增的见解延伸到了经验主义。B、 1.2具有频繁、有价值波动的制度回顾一下,定理3的理论见解之一是,我们的激励相容性定价模式仅在特定制度下有效,如果波动与常规周期相比没有太大价值,那么∈ (C,1)。这一普遍见解扩展到了任意定价功能(即asRR→ 0,则在正常周期内没有定价函数会诱导驾驶员接受非激增trip)。在这里,我们展示了这种洞察力也扩展到了实践中,具有非二进制激增。我们模拟了以下世界:我们“计算”涌浪系数模拟涌浪=6- 实际浪涌。在这种波动的情况下,97%的波动行程在[3,5]中具有波动系数,30%的行程具有5的波动系数:波动现在是默认值,与非波动期相比非常有价值。然后,我们根据每个这样的定价函数计算司机的付款。图11显示了使用现状工资按行程长度划分的收入差异图。图12:每班司机每小时收入直方图。请注意,y轴为对数刻度。函数(但具有模拟的喘振系数)和等效的附加喘振。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-23 23:42:40
有两个见解:o在低涌浪(系数[1,3])的情况下,驾驶员平均会更好地拒绝大多数出行请求,无论付款是加法还是乘法。o可能需要一个更复杂的定价函数:长行程与高行程的乘性波动,以及短行程的加性波动。B、 1.3司机收入差异我们现在计算司机在一次驾驶“轮班”期间的平均收入统计数据,理想情况下定义为司机打开应用程序和打开应用程序之间的时间。为了将行程分组到一个单独的驾驶员班次中,我们使用了一个名为active driverID的数据列,该列是驾驶员ID的一部分,似乎与IdeAustin内部定义的班次相对应。班次的“长度”定义为驾驶员在班次期间第一次被派往行程与班次期间最后一次完成行程的结束时间之间的时间。请注意,该值低估了实际轮班时间,因为它不包含收到第一次行程请求所需的时间或驾驶员在最后一次行程后回家所需的时间。因此,我们估计的每小时班次收入向上倾斜。在所分析的付款函数下,司机在换班期间的总收入只是每次出行的付款总额。然后,单班每小时的收入是总收入除以班次长度。图12显示了每小时轮班收入的加权直方图,其中权重是以小时为单位的轮班长度。加性激增导致每小时轮班收入的方差降低(但构建的平均值相同)。每小时收入的标准差分别为:16.97美元(现状票价)和15.83美元(与基本票价相加的激增),平均每小时收入约为32.22美元。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-23 23:42:43
如果我们取而代之的是取消最低票价和接送票价部分,并模拟加法或乘法激增,则标准偏差为:16.59美元(加法激增),18.35美元(乘法激增)。(a) 总票价和反向工程票价之间差异的柱状图。(b) 用于反事实收入的匹配行程之间的“匹配距离”。B、 2实证分析其他信息我们现在为第6节中介绍的主要分析的每个步骤提供更多详细信息。B、 2.1预处理在分析的时间段内有509823行(行程)。o4626次行程超过1小时或短于30秒,被丢弃3780辆超过100英里或短于0.25英里的车被丢弃(一些与时间丢弃的车重叠)。o26次出行的总票价明显错误(零,或里程/距离的倍数过高),并且没有用于校准反向工程票价。我们的分析结果是503383次旅行。B、 2.2支付功能图13a显示了列中可用的总票价与从正文中的功能形式衍生的反向工程票价之间的差异柱状图。这一数据很好,平均差异为0.005美元。图14绘制了三个层次上构建的附加激增票价与现状付款的对比图。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-23 23:42:47
正如预期的那样,加性激增会为短期激增的旅行支付更多的费用,而为长期激增的旅行支付更少的费用。B、 2.3匹配三元组对之间的“匹配距离”如正文所述:距离((时间,位置),(时间,位置))=以小时为单位的差异(时间,时间)+以英里为单位的差异(位置,位置)。图13b显示了给定行程和用于反事实收入的匹配三元组之间的距离分布,对于正文中描述的匹配技术。图14:构建的支付功能(与基本票价相加的激增)与反向工程的现状票价支付在出行水平上的对比。正如预期的那样,加性激增往往会为短途旅行支付更高的费用,而为长途旅行支付更低的费用。喘振系数-1001020304050收入差异支付=状态QUO4 4 5波动系数支付=以秒为单位的基本票价行程时间的加性波动(29.0699.0)(699.03598.0)图15:使用接受行程的下一位附近驾驶员作为反事实匹配。为了稳健性,我们还使用另一种方法为给定行程找到匹配:使用接受附近行程的下一位驾驶员。我们计算给定行程的开始时间和位置与每个未来行程的开始时间和位置之间的匹配距离,并选择CLO的驾驶员est匹配。与前面的方法一样,我们筛选出与给定行程驾驶员相同的驾驶员最近的行程。请注意,使用这种方法,预期收益差异应该接近于零,因为两个驱动因素在几乎相同的时间和地点匹配。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-23 23:42:50
但是,差异可能会因支付功能而异。喘振系数-1001020304050收入差异支付=状态QUO2 3 4 5波动系数支付=以秒为单位的基本票价行程时间(29.0699.0)(699.03598.0)的加性波动图16:使用下一个1小时的时段长度(而不是1.5小时)。喘振系数-20-1001020304050收入差异支付=状态QUO4 4 5波动系数支付=以秒为单位的基本票价行程时间的加性波动(29.0699.0)(699.0,3598.0)图17:从调度时间开始测量,而不是从行程开始时间开始测量,即考虑到驾驶员未付的第一部分行程。B.2.4行程差异我们现在对行程差异结果进行一些稳健性检查,并给出补充结果。图15显示了与正文中相同的图,但使用了下一个驾驶员具有第B.2.3节所述的可接受行程匹配功能。正如预期的那样,行程差异的平均值(无条件的行程长度)接近于零,但与之前一样,加性波动更好地平衡了短途和长途行程的相对值。图16显示了与正文中相同的图表,具有相同的匹配功能,但不要开始计算司机未来1小时的收入。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-23 23:42:53
结果相同。图17开始计算在给定驾驶员调度时间而非行程开始时间开始的驾驶员的收入;结果在质量上是相同的,这表明实际上一次旅行有两个组成部分——从派遣到骑手的时间(通常是无偿的)和骑手到目的地的时间(有偿的)——不会对结果产生实质性影响。最后,图18显示了相同的数据,但说明了在pure1激增系数下司机的薪酬-1001020304050收入差异支付=乘性波动系数支付=加性波动行程时间(秒)(699.0,3598.0)图18:分别为纯乘性波动和加性波动(无最低票价)。本工作其余部分研究的乘法和加法喘振函数定义如下:乘法喘振:[B×MSurgeF因子]×SurgeF因子微分喘振:[B×MSurgeF因子]+[(SurgeF因子- 1) ×ASurgeF actor]MSurgeF actor和ASurgeF actor罕见的喘振系数相关常数,这些常数的设置使得这些替代支付函数为每个喘振系数花费的总金额与现状费用相同。与最低票价的加性激增一样,这些替代性付款不会改变以激增系数为条件的平均出行付款,但会改变在该激增范围内为各种出行分配资金的方式。相反,如果我们在波动系数中使用一个常数,则此功能将不起作用,并且支付功能可能会为相同的波动系数平均支付不同的金额。C单态模型结果的证明在本节中,我们提供了关于单态模型的定理和引理的证明。第C.1节正式规定了驾驶员奖励。第C.2节包含定理1的证明。第C.3节包含命题3.1的证明。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-23 23:42:56
最后,第C.4节包含关于最优驱动策略的部分唯一性结果。C、 1驾驶员报酬回忆一下,R(w,σ,t)是从时间0到时间t完成的工作的总收入,即R(w,σ,t)=EhPN(t)k=1w(τi)i,其中τiis是驾驶员接受的第i个工作的长度,eis是接受该工作的时间,N(t)={i:0≤ ei+τi≤ t} |是到时间t为止接受的作业数。更新周期是指完成作业后驾驶员打开的时间,到完成作业后驾驶员下一次打开的时间。正如在正文中使用更新报酬定理所提到的,R(w,σ),lim inft→∞R(w,σ,t)t=预期周期付款给定σ预期周期长度给定σ=F(σ)Rτ∈σw(τ)dF(τ)F(σ)λ+F(σ)Rτ∈στdF(τ)λF(σ)项是指数随机变量的期望值,其速率为λF(σ),这是驾驶员在打开时接受骑乘请求的速率。C、 2定理1的证明我们现在证明定理1,关于单一状态模型中最优政策的形式,其中行程的长度无关紧要,只关心收益率。最佳政策是在出行时将收益率与驾驶员的利用率进行权衡。在较高的层面上,证明如下:从任何形式不适当的政策开始,我们用收益率较高的政策取代tripsin政策,同时保持使用率完全相同。这种替代会产生一种几乎是正确形式的政策,但可能存在收益率c,使得政策中只有{τ:w(τ)τ=c}的子集。该计划的其余部分表明,这种政策可以转化为适当形式的政策,而无需减少奖励。为了便于阅读,我们在附录中的适当位置重新陈述了每个主要文本结果。定理1。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-23 23:42:59
对于单个状态,每个w都存在一个常数cw∈ R+使得政策σ*=nτ:w(τ)τ≥ cwois在w.Proof方面对驾驶员来说是最佳的。证据设γ(τ),w(τ)τ为长度τ行程的每次收益率。假设w(τ)并非处处为零,即F({τ:w(τ)>0})>0。否则,任何策略都是最优的,因此结果微不足道。对于每个阈值c,让σ>cdenote集合{τ:γ(τ)>c},即严格的阈值策略,其中阈值不等式是严格的。Letσ≥cdenote集合{τ:γ(τ)≥ c} ,即一个完整的阈值策略,其中包括阈值处的所有行程。设σc=σ>c∪ C代表一些C {τ:γ(τ)=c}是一种部分阈值策略,其中包括阈值处的一些跳闸。证明分三步进行。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-23 23:43:02
从任意设置σ开始 (0, ∞), 每个步骤依次用一组更接近所需形式的σ替换σ,使得R(σ)≥ R(σ)。步骤1如果σ还不是至少部分阈值策略,那么可以用部分阈值策略替换它,同时提高奖励:如果不存在c∈ R+,C {τ:γ(τ)=c}使得σ=σ>c∪ C、 然后存在▄σC,如R(w,▄σC)>R(w,σ),其中▄σC=σ>C∪ c对于某些c∈ R+,C {τ:γ(τ)=c}。其余的证明致力于表明部分阈值策略可以被阈值策略替代,其中包括阈值处的所有行程。步骤2:部分阈值策略由严格或完全阈值策略弱支配:对于任何形式为▄σc=σ>c的▄σcof∪ c对于某些c∈ R+,C {τ:γ(τ)=c},至少以下各项为真:R(w,σ>c)≥ R(w,σc)或R(w,σ≥c)≥ R(w,|σc)。步骤3存在最佳完全阈值策略:c*对于所有c:R(w,σ≥c*) ≥ 最大值(R(w,σ≥c) ,R(w,σ>c))因此存在c*, 对于所有σ,我们有R(w,σ≥c*) ≥ R(w,σ)。注意,如果σ=(0,∞), F({τ:γ(τ)>0}∩ σ) =0,或F({τ:γ(τ)>0}∩ σ) =1,那么我们可以跳过前两个步骤,设置σc=(0,∞).第1步。如果不存在c∈ R+,C {τ:γ(τ)=c}使得σ=σ>c∪C、 然后存在▄σC,如R(w,▄σC)>R(w,σ),其中▄σC=σ>C∪ c对于某些c∈ R+,C {τ:γ(τ)=c}。对于给定σ,c,letAc={τ:τ/∈ σ, γ(τ ) ≥ c} Bc={τ:τ∈ σ、 γ(τ)<c}L(X)=Zτ∈XτdF(τ)X (0, ∞)ACI是一组每单位时间至少支付c但不在σ范围内的行程,BCI是一组每单位时间支付低于c且在σ范围内的行程。L(X)是tripsin X在更新周期中贡献的平均额外利用率。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-23 23:43:05
我们的想法是,如果我们发现集合A、B,边际利用率相等(L(A)=L(B)>0),集合A中的收益率支配集合B(γ(A)>γ(B)中的收益率,一∈ A、 b类∈ B) ,那么我们可以用A:σ=σ替换策略中的B∪ A\\B==>R(w,σ)>R(w,σ)。奖励的分母保持不变,分子增加。根据假设和定义得出的一些事实:L(A)>0σ6=(0,∞), F({τ:γ(τ)>0}∩ σ) < 1c:L(Bc)>0 F({τ:γ(τ)>0}∩ σ) >0L(Ac)在c中不随c的增加而增加SL(Bc)在c中不随c的增加而减少LC→∞L(Ac)=0γ(τ)渐近有界于defnL(B)=0γ(τ)非负(Ac),L(Bc)在cTo中保持连续。请参见最后一个声明,请注意,L(Ac)和L(Bc)仅在F({τ:γ(τ)=c})为非零的情况下才是不连续的,即使在这种情况下也是从左侧连续的。非递增/非递减属性意味着C使L(Ac)<L(Bc),c>c。这个事实,连同左连续性和L(Ac),L(Bc)的相同不连续点,意味着c使c=最大值{c:L(Ac)≥ L(Bc)}如果L(Ac)=L(Bc),那么我们就完成了这部分:设σc=σ∪ Ac\\Bc={τ:γ(τ)≥ c} ,我们有R(w,σc)>R(w,σ)。否则,如果L(Ac)>L(Bc)(如果F({τ:γ(τ)=c})非零,则可能发生这种情况),我们需要选择{τ:γ(τ)=c}的子集,以便构造集的总体利用率保持不变。我们可以这样做:o根据c的定义,对于所有c>cwe,L(Ac)<L(Bc)。然后L(Bc)<L(Ac)<L(Bc∪ {τ : τ ∈ σ、 γ(τ)=c})o设c {τ : τ ∈ σ、 γ(τ)=c},这样L(Bc∪ C) =L(Ac)。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-23 23:43:09
这种C的存在是因为F是连续的设σc=σ∪ Ac \\(Bc∪ C) ,等于σC=σ>C∪ C对于某些C {τ:γ(τ)=c}。由于两组的利用率相同,我们现在有R(w,|σc)>R(w,σ),并且每个tripin|σCI在单位时间内的价值至少与σ中相应的trip相同。第2步。对于任何形式为▄σc=σ>c的▄σcof∪ c对于某些c∈ R+,C {τ:γ(τ)=c},至少以下各项为真:R(w,σ>c)≥ R(w,σc)或R(w,σ≥c)≥ R(w,|σc)。设C={τ∈ {τ : τ ∈ σ、 γ(τ)=c}\\c},即一组跳闸,使得γ(τ)=cbut不在c中。我们通过与边缘值阈值c相比,推断R(w,∑c)的值来证明这一步骤。o假设c≥ R(w,|σc)。然后,我们可以将行程添加到集合:R(w,{τ:γ(τ))≥ c} )=λRτ∈σcw(τ)dF(τ)+λRτ∈Cw(τ)dF(τ)1+λRτ∈σcτdF(τ)+λRτ∈CτdF(τ)≥ R(w,|σc)(3),其中不等式来自R(w,|σc)=λRτ∈σcw(τ)dF(τ)1+λRτ∈σcτdF(τ),λRτ∈Cw(τ)dF(τ)λRτ∈CτdF(τ)=λRτ∈Cw(τ)ττdF(τ)λRτ∈CτdF(τ)=C,和xz≥怀俄明州==>w+xy+z≥wy.o或者,假设c<R(w,∑c)。然后,我们可以从集合中移除跳闸:R(w,{τ:γ(τ)>c})=λRτ∈σcw(τ)dF(τ)- λRτ∈Cw(τ)dF(τ)1+λRτ∈σcτdF(τ)- λRτ∈CτdF(τ)>R(w,|σC)(4),其中不等式遵循wy>xz==>w-xy型-z> wywhen w- x个≥ 0,y- z≥ 0、步骤3。c*对于所有c:R(w,σ≥c*) ≥ 最大值(R(w,σ≥c) ,R(w,σ>c))在第一个子部分中,我们只需要证明存在一个最大化子c*对于函数max(R(w,σ≥c) ,R(w,σ>c)):这一事实不是立即发生的,因为σ是有限集。以下是正确的o假设w(τ)/τ是渐近有界的,我们得到的回报是有界的:存在R,因此对于所有σ,我们有R(w,σ)∈ [0,\'R]。oF是连续分布,所以limc→∞F({τ:γ(τ))≥ c} )=0。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-23 23:43:12
存在这样的情况c>c:R(w,σ>c)<R((0,∞)), R(w,σ≥c) <R((0,∞))o R(w,σ>c)在c中从右起连续,R(w,σ≥c) 在c中从左边开始是连续的,这两个函数具有相同的不连续点:c使得F({τ:γ(τ)=c})>0(这些也是它们唯一的不一致点)。要了解这些事实,请观察F(σ>c)和F(σ≥c) 分别具有相同的属性。因此,函数max(R(w,σ≥c) c的R(w,σ>c))在某些c下达到最大值*∈ [0,C]。换句话说,存在c*因此c、 最大值(R(w,σ≥c*), R(w,σ>c*)) ≥ 最大值(R(w,σ≥c) ,R(w,σ>c))。在第二个子部分中,我们通过证明R(w,σ≥c*) ≥ R(w,σ>c*), i、 例如,我们可以在保险单的每一时间价值的边际上包含折扣假设c*≥ R(w,σ>c)*). 然后,通过与第(3)行相同的参数,R(w,σ≥c*) ≥ R(w,σ>c*),包括边际旅行会增加回报。o假设c*< R(w,σ>c*).– 如果B:c*< B使得质量F({τ:γ(τ))∈ (c)*, B] })=0,然后注意σ>c*等于σ≥Bup到一组度量值0,因此R(w,σ>c*) = R(w,σ≥B) .–否则,让B:c*< B<R(w,σ>c*), 注意F({τ:γ(τ))∈ (c)*, B] })>0。然后,通过与第(4)行相同的参数,R(w,σ>c*) < R(w,σ>B)≤ 最大值(R(w,σ≥c*), R(w,σ>c*)) =R(w,σ≥c*): 我们可以删除子集(c*, B) 从政策σ>c*提高奖励,等等σ≥c*必须是最优的。因此存在c*, 对于所有σ,我们有R(w,σ≥c*) ≥ R(w,σ)。C、 3命题3.1的证明在单一状态下,如果0,则w(τ)=mτ+a是激励相容的≤ 一≤mλ。证据证据设T=Rτ∈(0,∞)τdF(τ)。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-23 23:43:15
设σ=(0,∞) \\ σ、 对于某些σ。R((0,∞)) =λRτ∈(0,∞)w(τ)dF(τ)1+λTR(σ)=λRτ∈(0,∞)w(τ)dF(τ)- λRτ∈σw(τ)dF(τ)1+λT- λRτ∈στdF(τ)==> R((0,∞)) ≥ R(σ)<==>λRτ∈(0,∞)w(τ)dF(τ)1+λT≤Rτ∈σw(τ)dF(τ)Rτ∈στdF(τ)最后一行从wy开始≥w-xy型-z<==>怀俄明州≤xz。因此,激励相容性的一个必要且有效的条件是λRτ∈(0,∞)w(τ)dF(τ)1+λT≤Rτ∈σw(τ)dF(τ)Rτ∈στdF(τ)σ.假设w(τ)=mτ+a。然后,对于0≤ 一≤mλ:λRτ∈(0,∞)w(τ)dF(τ)1+λT=λ(mT+a)1+λT≤m(λT+1)1+λT=m a≤mλ≤ m+a“F(σ)Rτ∈στdF(τ)#σa≥ 0(5)=Rτ∈σw(τ)dF(τ)Rτ∈στdF(τ)注意,该条件是有效的,但不是必要的。证明必要条件需要在假设分布F的情况下拧紧线(5)。C、 4单状态模型最优策略的唯一性4。考虑单状态模型。存在最优策略σ*σ形式的*={τ:w(τ)τ≥ c*} 使得R(σ*) = c*. 此外,该策略是唯一的最优策略,最多可设置度量值0,最多可修改(减法)集合{τ:w(τ)τ=c*}.证据证据根据定理1,存在σ形式的最优策略*= {τ:w(τ)τ≥ c*},对于一些c*. 这里,我们证明(1)存在一个最优策略σ*其形式为R(σ*) = c*, (2)这是唯一的最优策略,在度量值为0的集合和{τ:w(τ)τ=c的集合的修改(减法)之前*}.1、从任何最优策略σ开始*σ形式的*= {τ:w(τ)τ≥ c} ,对于某些c和letc*= R(σ*) 成为最佳奖励。那么,σ≥c*= σ*至多组度量值0,其中σ≥c*= {τ:w(τ)τ≥ c*}. 如果是c*= c、 这是微不足道的。否则,假设R(σ*) = c*> c、 然后,注意σ≥c* σ*. 如果F(σ*\\ σ≥c*) > 0:R(σ≥c*) =λRτ∈σ*w(τ)dF(τ)- λRτ∈σ*\\σ≥c*w(τ)dF(τ)1+λRτ∈σ*τdF(τ)- λRτ∈σ*\\σ≥c*τdF(τ)>R(σ*)由λRτ得出∈σ*\\σ≥c*w(τ)dF(τ)λRτ∈σ*\\σ≥c*τdF(τ)<c*= R(σ*) =λRτ∈σ*w(τ)dF(τ)1+λRτ∈σ*τdF(τ),and xz<wy==>w-xy型-z> wywhen w- x个≥ 0,y- z≥ 0
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-23 23:43:18
这与σ相矛盾*是最佳的。类似地,假设R(σ*) = c*< c、 然后,注意σ* σ≥c*. 如果F(σ≥c*\\ σ*) > 0:R(σ≥c*) =λRτ∈σ*w(τ)dF(τ)+λRτ∈σ≥c*\\σ*w(τ)dF(τ)1+λRτ∈σ*τdF(τ)+λRτ∈σ≥c*\\σ*τdF(τ)>R(σ*)由λRτ得出∈σ≥c*\\σ*w(τ)dF(τ)λRτ∈σ≥c*\\σ*τdF(τ)>c*= R(σ*) =λRτ∈σ*w(τ)dF(τ)1+λRτ∈σ*τdF(τ),and xz>wy==>w+xy+z>wy。这与σ相矛盾*是最佳的。2、以上第一部分证明了σ形式的政策的唯一性≥c={τ:w(τ)τ≥ c} 定理1证明的步骤1进一步表明,只有形式为▄σc=σ的策略≥c\\c对于某些c∈ R+,C {τ:γ(τ)=c}可以是最优的。与上述和定理1证明步骤2几乎相同的参数将完成证明。动力学模型结果的D证明在本节中,我们提供了关于动力学模型的主要文本中的定理和引理的证明。第D.1节包含关于Driverward的动态模型引理的证明以及在每个状态下花费的时间,引理1、2和3。第D.2节概述了定理2和3的证明策略,特别是包含了用于证明这两个定理的主要技术引理。第D.3节包含用于证明主要结果的几个辅助引理的陈述。这些引理的证明推迟到第D.5节,因为它们在代数上很乏味。最后,第D.4节包含了我们的主要结果定理2和3的证明。D、 1驾驶员报酬引理2。假设世界在时间t处于状态i。让qi→j(s)表示世界在时间t+s时处于状态j 6=i的概率。然后,qi→j(s)=λi→jλi→j+λj→ih1- e-(λi→j+λj→i) 啜饮。证据考虑到模型中的状态动力学,qi→j(s)由aCTMC在时间s内的演变决定,假设当前状态为i。我们可以在这里使用标准CTMC结果。LetQ表示世界状态CTMC的Q矩阵。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-6-23 23:43:21
根据模型定义,Q=-λ1→2λ1→2λ2→1.-λ2→1.回想一下,时间t后的状态转移矩阵由矩阵指数eQt给出,它等于Q:qi预解的逆的拉普拉斯变换的逆→j(τ)=(eQτ)ij=L-1((wI- Q)-1ij)(τ)w是拉普拉斯变换参数=λi→jλi→j+λj→ih1- e-(λi→j+λj→i) τi由于2状态模型假设,最后一行中的闭合形式出现。接下来,引理1和引理3一起被证明。引理1。在动态模型中,收益率可以分解为每个状态i的收益率Ri(wi,σi)和状态i花费的时间ui(σ)的分数:R(w,σ)=u(σ)R(w,σ)+u(σ)R(w,σ),概率为1。在单态模型中,Ri(wi,σi)=wi(σi)Ti(σi),其中wi(σi)=Fi(σi)Zτ∈σiwi(τ)dFi(τ),Ti(σi)=λiFi(σi)+Fi(σi)Zτ∈σiτdFi(τ)引理3。设Ti(σi)如引理1所定义。遵循策略σ={σ,σ}的驾驶员在状态i打开或在状态i开始的行程中花费的时间分数为ui(σ)=λiFi(σi)Ti(σi)Qj(σj)λjFj(σj)Tj(σj)Qi(σi)+λiFi(σi)Ti(σi)Qj(σj),其中Qi(σi)=λi→j+λiZτ∈σiqi→j(τ)dFi(τ)证明。证据考虑正文中定义的更新过程(包括周期和子周期)。单个奖励更新周期为:从驱动程序在状态1中打开到驱动程序在状态2中至少打开一次后,下一次在状态1中打开之间的时间。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群