References：

Learning Longer Memory in Recurrent Neural Networks

Learning long-term dependencies with gradient descent is difficult

RNN 的梯度消失问题

RNN梯度消失与梯度爆炸推导

理论推导RNN梯度消失和梯度爆炸的原因

RNN梯度消失和爆炸的原因

【概述】

在深度学习中，梯度对 BP 网络的训练起到了十分重要的作用，而梯度爆炸和梯度消失，是十分常见的两个问题

在循环神经网络中，采用 BPTT 进行训练，也存在这两个问题，梯度消失会使得 RNN 权重无法被更新，最终导致训练失败，梯度爆炸会使得 RNN 不稳定，无法从长输入数据序列上学习

关于梯度爆炸与梯度消失，详见：梯度爆炸与梯度消失

【RNN 中梯度问题出现原因】

RNN 循环单元结构如下图所示

现假设存在一具有 $3$ 个循环单元的 RNN，最左端的输入 $s_0$ 为给定值，同时，为便于分析，那么前向传播过程为：

$\begin{align*} s_1 = f(U\cdot x_1 + W\cdot s_0 + \mathbf{b}_h) && o_1&= g(V\cdot s_1+\mathbf{b}_o) \\ s_2 = f(U\cdot x_2 + W\cdot s_1 + \mathbf{b}_h) && o_2&= g(V\cdot s_2+\mathbf{b}_o) \\ s_3 = f(U\cdot x_3 + W\cdot s_2 + \mathbf{b}_h) && o_3&= g(V\cdot s_3+\mathbf{b}_o) \end{align*}$

假设在 $t=3$ 时刻，损失函数为 $L_3$，那么根据反向传播过程，有：

$\begin{align*} \frac{\partial L_3}{\partial V} &= \frac{\partial L_3}{\partial o_3} \frac{\partial o_3}{\partial V} \\ \frac{\partial L_3}{\partial W} &= \frac{\partial L_3}{\partial o_3} \frac{\partial o_3}{\partial s_3} \frac{\partial s_3}{\partial W} + \frac{\partial L_3}{\partial o_3} \frac{\partial o_3}{\partial s_3} \frac{\partial s_3}{\partial s_2} \frac{\partial s_2}{\partial W} + \frac{\partial L_3}{\partial o_3} \frac{\partial o_3}{\partial s_3} \frac{\partial s_3}{\partial s_2} \frac{\partial s_2}{\partial s_1}\frac{\partial s_1}{\partial W} \\ \frac{\partial L_3}{\partial U} &= \frac{\partial L_3}{\partial o_3} \frac{\partial o_3}{\partial s_3} \frac{\partial s_3}{\partial U} + \frac{\partial L_3}{\partial o_3} \frac{\partial o_3}{\partial s_3} \frac{\partial s_3}{\partial s_2} \frac{\partial s_2}{\partial U} + \frac{\partial L_3}{\partial o_3} \frac{\partial o_3}{\partial s_3} \frac{\partial s_3}{\partial s_2} \frac{\partial s_2}{\partial s_1}\frac{\partial s_1}{\partial U} \end{align*}$

那么，对于具有 $T$ 个时间步的 RNN，将上述公式进行推广，有：

$\begin{align*} \frac{\partial L}{\partial V} &= \sum_{t=0}^{T=3} \frac{\partial L_t}{\partial o_t} \frac{\partial o_t}{\partial V} \\ \frac{\partial L}{\partial W} &= \sum_{t=0}^{T=3} \sum_{j=0}^t \frac{\partial L_t}{\partial o_t} \frac{\partial o_t}{\partial s_t} \Big( \prod_{k=j+1}^t \frac{\partial s_k}{\partial s_{k-1}} \Big) \frac{\partial s_j}{\partial W} \\ \frac{\partial L}{\partial U} &= \sum_{t=0}^{T=3} \sum_{j=0}^t \frac{\partial L_t}{\partial o_t} \frac{\partial o_t}{\partial s_t} \Big( \prod_{k=j+1}^t \frac{\partial s_k}{\partial s_{k-1}} \Big) \frac{\partial s_j}{\partial U} \end{align*}$

此时，RNN 梯度消失和梯度爆炸的原因就产生了，在上述的第二个等式和第三个等式中，出现了与时间步 $t$ 相关的连乘的因式

以第二个等式为例，有：

$\frac{\partial s_k}{\partial s_{k-1}} = f'\cdot W$

其中，$f’$ 为隐藏层激活函数的导数，假设 $f(\cdot)$ 为 sigmoid 函数，其导数 $f’=f(1-f)\in(0,\frac{1}{4})$，那么：

$W<1$ 时：$\frac{\partial s_k}{\partial s_{k-1}}<1$，经过数次相乘后，$\frac{\partial L}{\partial W}$ 逐渐接近于 $0$，即梯度消失
$W>1$ 时：$\frac{\partial s_k}{\partial s_{k-1}}>1$，经过数次相乘后，$\frac{\partial L}{\partial W}$ 越来越大，即梯度爆炸

Alex_McAvoy

循环神经网络的梯度问题

【概述】

【RNN 中梯度问题出现原因】