因此,具有相同先验超参数的单纯形+熵正则化(8)与单纯形+岭正则化(5)具有相同的功能:施加单纯形并向等权方向收缩。A.1关于ω=(ω,ω,…,ωK)的先验Dirichlet超参数α=(α,α,…,αK)isfD(ω;α)=B(α)KYk=1ωαK-1k,其中B(·)是β函数,αk>0K∈ 1.K、 ω的支点是ωK∈(0,1)pkk=1ωk=1。众所周知,狄里克莱均值和方差为:E(ωi)=αiPKk=1αkandvar(ωi)=αiPKk=1αk1.-αiPKk=1αk1+PKk=1αk。因此,当α=α=…=αK=α,我们有[ωK]=1/KandV ar(ωK)=K- 1αK+K,对于所有K=1。。。,也就是说,先验知识以相等的权重1/K和var(ωK)为中心→0作为α→∞, 因此,α决定了先前的精度,较大的α会产生更大的向后收缩1/K.A.2。后验分布是fd(ω| y;α)=TYt=1KXk=1ωkfk,t(yt)|{z}伪似然×B(α)KYk=1ωα-1k |{z}先验,所以对数后验islog fD(ω;α)=TXt=1logKXk=1ωkfk,t(yt)!+(α - 1) KXk=1log(ωk)- 对数B(α)。因为B(α)不依赖于ω,我们可以去掉最后一项,所以后验模态是ω=arg minω-TXt=1logKXk=1ωkfk,t(yt)!|{z}对数分数+(α- 1)-KXk=1log(ωk)!|{z}惩罚(A.2)s.t.ωk∈ (0,1),KXk=1ωk=1。A.3理解惩罚项理解惩罚项的一种方法是回顾Owen(2001)的经验似然最大化问题的解决方案,arg minω-KXk=1log(ωk)!s、 t.ωk∈ (0,1),KXk=1ωk=1,这是相等的权重,ωk=1/k,k、 因此,我们看到(A.2)的惩罚部分在ωk=1/k时最小化,这对惩罚项产生了清晰的解释。较大的α意味着ω上的一个更紧的优先级,向等重方向收缩更大。有几个有趣的限制性案例。首先,对于α→∞, 惩罚项占主导地位,最优解为等权。