吴恩达deeplearning.ai课程学习笔记

发表于 2018-01-16 更新于 2026-01-02 分类于 caffe

作业在这里
原仓库被coursera要求删掉了，多亏我及时folk/斜眼笑

如果没有激活函数的话，多层的神经网络仍然是个线性的模型。

L2正则化相当于是w权重减小， weight decay

后面等这些是用在mini-batch中的，当训练数据量太大，需要对训练数据分割为mini-batch。但这样会造成收敛方向波动，为了减小这种波动，引入Adam优化算法。
指数加权平均

batch norm

待续