深度学习网络:ReLU比Sigmoid函数的优势
这是在StackExchange上发布的一个问题。非线性技术的现状是在深度
神经网络中使用整流线性单位(ReLU)代替S型函数。有什么优势?我知道在使用ReLU时训练网络会更快,并且会受到更多的生物学启发,还有什么其他好处?(也就是说,使用乙状结肠有什么缺点)?
以下是最佳答案。
优点:
乙状结肠:不炸裂激活
Relu:不消失的梯度
Relu:比起类似Sigmoid的函数,计算效率更高,因为Relu只需选择max(0, x)而不用像Sigmoids那样执行昂贵的指数运算
Relu:在实践中,具有Relu的网络往往显示出比S型更好的收敛性能。(克里热夫斯基等)
坏处:
乙状结肠:趋于消失梯度(因为存在一种随着 “ a”的增加而减小梯度的机制,其中“ a ”是乙状结肠功能的输入。乙状结肠的梯度:S′(a)= S(a)(1 -S(A)) 。当“一个”长到无限大,S'(A)= S(A)(1-S(A))= 1×(1-1)= 0。
Relu:倾向于破坏激活(没有机制来约束神经元的输出,因为“ a ”本身就是输出)
鲁鲁(Relu):死于鲁鲁问题-如果太多激活都低于零,那么带有鲁鲁的网络中的大多数单元(神经元)将仅输出零,换句话说就是死亡,从而禁止学习。(在某种程度上可以解决这个问题,而是使用Leaky-Relu。)
1