Reference:
【概述】
如下图所示,卷积神经网络由若干个卷积层和池化层进行局部特征识别和降维,之后再利用生成的特征图用全连接层去处理
由于在训练神经网络期间前一层的参数发生了变化,这导致了每层输入的分布不同,难以通过较低的学习率和参数初始化来减慢训练速度,同时要训练的具有饱和非线性模型也十分困难,这种现象被称为内部协变量偏移(Internal Covariate Shift)
论文 Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift 中提出了批量归一化(Batch Normalization,BN)这种数据归一化方法来解决该问题