用wiseproduct表示元素o, 最终存储单元和隐藏状态由ct=遗忘给出o 计算机断层扫描-1+输入o ct,ht=outto tanh(ct)。我们使用状态过程HTT代替宏观经济变量ITA作为SDF网络的输入。附录C.训练深层神经网络的实施一般的随机梯度下降法不是一种有效的方法。更好的方法是使用引入自适应学习率的优化方法。我们使用基于梯度的随机目标函数优化算法Adam,基于低阶矩的自适应估计来持续调整学习速率。它更容易逃逸鞍点,因此更精确,同时提供更快的收敛速度。正则化非常重要,可以防止模型过度拟合训练样本。虽然l/l规则化也可以用于训练其他神经网络,但退出更可取,通常会产生更好的性能。术语“辍学”是指神经网络中的辍学单元。通过放弃一个单元,我们的意思是暂时将其从网络中删除,以及以一定的概率将其所有传入和传出连接一起删除。辍学可以显示为脊线正则化的一种形式,仅在训练期间应用。在进行样本测试时,我们保留所有单元及其连接。总之,超参数选择工作如下:(1)首先,对于每种可能的超参数组合(384个模型),我们定义GAN模型。(2) 其次,我们在验证数据集上选择四个最佳超参数组合。(3) 第三,对于四种组合中的每一种,我们将9个模型划分为具有相同超参数但不同初始化的模型。(4) 最后,我们在验证数据集上选择性能最好的集成模型。