AdamWAdamW指的是Adam + Weight Decay(权重衰减)。 Adam相信很多读者已经了解了,Weight Decay解释起来也比较容易,为了防止过拟合,在计算损失函数时需要增加L2正则项: 求导计算梯度时: Weight Decay即在正则项前面乘以 γ ( 0 < γ < 1 ) \gamma (0<\gamma<1) γ(0<γ<1),用来缩放正则项产生的影响:L2正则会使得参数趋近于0,Weight Decay减轻这种趋势。 AdamW将Weight Decay应用在优化算法最后一步参数更新,参见下图(下图中的w等价于上面公式内的
γ
\gamma
γ)。 代码实现可以参见:理解AdamW Adafator
Adafator没有像Adam那样保存权重矩阵每个元素的滑动平均值,而是保存了行维度或者是列维度的滑动平均值之和,这样显著降低了需要参数更新时需要的存储空间。 Adafator详细的计算方法如下图算法所示: 这样存储需要的空间就从 n m nm nm的倍数,变为 n + m n+m n+m的倍数,节省了可观的存储空间。 注意:由于 β 1 = 0 \beta_1=0 β1=0,相当于去掉了Adam的Weight Decay。这导致相较于Adam算法,Adafator存在表现不稳定的缺陷,有时候能比Adam更快收敛,有时候则不能。 参考文献 |
原文地址:https://blog.csdn.net/Solo95/article/details/131609929
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:https://www.msipo.com/article-1113.html 如若内容造成侵权/违法违规/事实不符,请联系MSIPO邮箱:3448751423@qq.com进行投诉反馈,一经查实,立即删除!
Copyright © 2023, msipo.com