然而,训练数据窗口是否足够完美?为了实际应用,我们必须确定训练数据窗口的长度,以获得令人满意的结果。我们保留了测试数据集,同时将训练数据集从半年扩展到五年,半年是用于确定最佳训练窗口大小的步长。对于每个训练窗口,我们使用预测模型XGB-OR进行保持测试。为了确认稳健性,我们将测试数据窗口移到早期,即2017年1月至2017年6月,使用相同的培训窗口。如图3所示,相对准确度表明,要充分利用在线评论,需要三年以上的数据。0.5 1 1.5 2.5 3 3.5 4 4.5 5培训窗口(年)-0.100-0.075-0.050-0.0250.0000.0250.0500.0750.100相对精度XGB-OR\\U 201701-201706 XGB-OR\\U 201707-201712 XGB-10TI\\U 201707-201712图3:不同培训窗口长度的保持测试精度。相对准确度表示不同训练窗口的预测准确度与预测数据集的随机值之间的差异。此外,我们还对财务技术指标进行培训窗口选择。从图3可以看出,XGB-10TI 201707-201712线表明,只有当训练数据的长度为半年时,准确度才会优于随机值,这与短期方法中的技术分析一致(De Bondt和Thaler,1985;Jegadeesh和Titman,1993;Menkhoff,2010)。对于2017年1月至2017年6月的预测期,不存在从滑动窗口派生的训练子集,其精度高于随机值;因此,我们不显示图3.6中的对应行。