上一篇在公众号写的神经网络调试Checklist详细地介绍了神经网络调试的步骤和技巧。本文将进一步学习深度学习网络中另一核心内容:求导和反向传播。笔者认为,在熟练使用诸如Pytroch/Tensorflow等深度学习工具之外,咱们也有必要对背后的数学知识有所理解。因此,本文将从简单的标量谈起,深入解析神经网络中张量求导和反向传播所涉及的数学计算,希望能成为深度学习初学者的参考资料。
提几个问题,读者朋友看下是否可以自如回答:
-
- 什么是链式法则?
-
- 什么是Jacobin矩阵,它有什么用处?
-
- 梯度的定义是什么?方向导数和梯度的关系是什么?
-
- 神经网络中张量反向传播有什么特点?哪些特性保证了神经网络中高效的梯度计算?