2020/01/24
《百面
机器学习-算法工程师带你去面试》读书笔记
《No.23: p209~p219》第九章 前向
神经网络
Q76 ReLU系列的激活函数相对于Sigmoid和Tanh激活函数的优点为何?有何局限性及如何改进?
1 优点:
1.1 ReLU只要计算阀值;Sigmoid及Tanh要计算指数,比较复杂。
1.2 ReLU可解决梯度消失的问题。
1.3 ReLU的单侧抑制提供了网络的稀疏表达能力。
2 局限性
2.1 ReLU训练过程中会导致神经元死亡的问题。若学习率设治过大,会导致一定比率的神经元死亡。造成梯度无法更新,而导致训练过程失败。
2.2 变种ReLU,Leaky ReLU可解决神经元死亡的问题。
Q77 写出多层感知机的平方误差和交叉熵损失函数。
1. 代价函数: 包含二项,第一项为评分误差项,第二项为L2正则化项(可称为权重衰减项,可减小权重的幅度,防止过拟合)
2. 书中,以二酚类场景写出交叉熵损失函数。
Q78 根据上提所定义的损失函数,推导个层参数的梯度计算公式。
略
Q79 平方误差损失函数和交叉熵损失函数分别适合什么场景?
1. 平方损失函数适合输出为连续,且最后一层不含Sigmoid或Softmax激活函数的神经网络。
2. 交叉熵损失函数: 适合二分类或多分类的场景。
Q80 神经网络训练时是否可以将全数参数初始化为0?
Ans