References:
【概述】
在 机器学习的模型评估 中,介绍了偏差、方差、噪声、偏差-方差分解以及偏差-方差窘境
由于在训练神经网络期间前一层的参数发生了变化,这导致了每层输入的分布不同,难以通过较低的学习率和参数初始化来减慢训练速度,同时要训练的具有饱和非线性模型也十分困难,这种现象被称为内部协变量偏移(Internal Covariate Shift)
论文 Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift 中提出了批量归一化(Batch Normalization,BN)这种数据归一化方法来解决该问题