在神经网络训练过程中,BatchNormalization 是常见技术之一,可以加快模型收敛速度,同时可以提高模型的泛化性能。但在实际应用中需要对它的反向传播进行一定的分析和理解。
BatchNormalization 的反向传播主要包括两部分:一是对输出层的反向传播,二是对 BN 层的学习参数的反向传播。下面是代码示例:
对输出层的反向传播 def backward_pass(dout, cache): gamma, beta, x_norm, xmu, ivar, sqrtvar = cache N, D = dout.shape
dbeta = np.sum(dout, axis=0)
dgamma = np.sum(x_norm * dout, axis=0)
dx_hat = dout * gamma
dxmu1 = dx_hat * ivar
divar = np.sum(dx_hat * xmu, axis=0)
dsqrtvar = -1.0 / (sqrtvar**2) * divar
dvar = 0.5 * 1.0 / np.sqrt(var + eps) * dsqrtvar
dsq = 1.0 / N * np.ones((N, D)) * dvar
dxmu2 = 2 * xmu * dsq
dx1 = (dxmu1 + dxmu2)
dmu = -1 * np.sum(dxmu1 + dxmu2, axis=0)
dx2 = 1.0 / N * np.ones((N, D)) * dmu
dx = dx1 + dx2
return dx, dgamma, dbeta
对 BN 层的学习参数的反向传播 def update_params(params, grads, config=None): if config is None: config = {} config.setdefault('learning_rate', 1e-2)
learning_rate = config['learning_rate']
gamma, beta = params['gamma'], params['beta']
dgamma, dbeta = grads['dgamma'], grads['dbeta