利用 matrix derivative 思考 back propagation

在之前 矩阵偏导 一文中提到,我们通常采用 numerator layout 的格式表示 偏导矩阵。

但是 !!!!!!

在 back propagation 中,我们应当采用 denominator layout 的格式,理由有两点 :

  1. 损失函数 \(J\) 一般是标量,而 权重 \(\mathbf {W}\) 和 偏置 \(\mathbf {b}\) 均为矩阵, 我们求解 \(\cfrac {\partial J}{\partial \mathbf {W}}\)\(\cfrac {\partial J}{\partial \mathbf {b}}\) 矩阵,大小和分母保持一致更合适
  2. 梯度下降中,\(\mathbf {W} = \mathbf {W} – \alpha \cfrac {\partial J}{\partial \mathbf {W}}\) ,如果我们采用 denominator layout,可以进行矩阵减法运算,而不用转置后再运算

本文的网络结构参考吴恩达老师的 Deeplearning.ai 课程

Continue reading “利用 matrix derivative 思考 back propagation”