在有限样本空间下,P(破产(>TD-3))现在定义为:P(破产(TD-2)∪破产(TD-1)∪破产(TD))=1-P(破产C(TD-2)∩ RUNC(TD-1)∩ RuinC(TD))=1-P(RuinC(TD-2))*P(RuinC(TD-1)∩ 因此,值函数为:V(TD-3,RF(TD-3))=Min 1-P(RUNC(TD-2))*P(RUNC(TD-1)∩ 时间t=TD-3时的RuinC(TD)| RuinC(TD-2))诱导与时间t=TD-2时的诱导几乎相同,接下来将该过程推广到时间t=TD-k,然后在第II-G.1节中报告任何时间t。注意,对于所有RF(t)>0的情况,该概率的最佳值是在时间t=TD-2时得出的。(C.6)(C.7a)(C.7b)(C.8a)RF(TD-1)→ V(TD-3,RF(TD-3))=最小值 1-P((TD-2,α)>RF(TD-3))*P((TD-1,)> RF(TD-2)∩ (TD,)> RF(TD-1)|(TD-2,α)>RF(TD-3))→ V(TD-3,RF(TD-3))=最小值 1-P((TD-2,α)>RF(TD-3))*,∩,∩,,→ V(TD-3,RF(TD-3))=最小值 1-(1–F(TD-2,α)(RF(TD-3)))*,,,,,,,,,,→ V(TD-3,RF(TD-3))=最小值 1-(1–F(TD-2,α)(RF(TD-3)))*,,,,,,,,,→ V(TD-3,RF(TD-3))=最小值 1-(1–F(TD-2,α)(RF(TD-3)))*,,,,,我们要求在未来的每个阶段都遵循最佳政策反映这些最佳值。