原因在于大O符号。O(1/√后悔:O里面是什么?当代理使用收缩步长大小实现MWU时(T)=1/√T,每个时间步的成本为cn:A→ R、 带cn(s)∈ [0,M],那么它的遗憾是xt=1Ean~xncn(an){z}MWU,带1/√T步长<mina∈ATXn=1cn(a){z}最佳固定动作+(M+1)pT log(| a |),其中| a |是代理可用的策略数量(关于为什么术语O(MpT log(| a |))在一般优化设置中无法进一步改进的讨论,另请参见[18][第2.6、2.8节,备注2.2])。因此,时间平均遗憾为(M+1)√日志(| A |)√T、 当T消失时→ ∞. 然而,对于足够大的M,后悔变得可以忽略的时间T可能是不切实际的大。在游戏的情况下,由于在线支付流的稳定性,我们可以证明更强大的遗憾边界[33,85],包括所有(连续时间)的Θ(1/T)[53],遵循正规化领导者(FTRL)动力学,其中包括MWU。然而,这些界限意味着为了达到一种小小的后悔状态, 我们仍然需要一些M为多项式的步骤/, 其中,M是我们游戏中可能的最大成本值。在我们设置的拥挤游戏中,M的价值是什么?这是最坏的可能成本M=N max{α,β}。所以,对于一个大的人口规模N,甚至对于MWU, 等到遗憾小到可以忽略不计时,等待的时间可能会很长,这是不切实际的。对于任何有意义的时间范围,代理的遗憾可能仍然很大,以至于无法应用(λ,u)-稳健性类型的结果【73】。