Appearance
论文:He et al., 2016
随着网络层数加深,出现了梯度消失/爆炸以及退化问题。
引入恒等映射,将网络输出变为:
$$ y = F(x) + x $$
使得网络可以学习残差 $F(x) = y - x$,当 $F(x) = 0$ 时就是恒等映射。