Adam又要“退休”了?耶鲁大学团队提出AdaBelief,NeurIPS 2020收录,却引来网友质疑

微信扫一扫,分享到朋友圈

Adam又要“退休”了?耶鲁大学团队提出AdaBelief,NeurIPS 2020收录,却引来网友质疑

要挑战 Adam 地位的优化器又多了一个。

近日 NeurIPS 2020 收录论文提出的一个优化器,在深度学习社区成为焦点,引起广泛讨论。

这就是由耶鲁大学团队提出的AdaBelief。团队在论文中表示,该优化器兼具 Adam 的快速收敛特性和 SGD 的良好泛化性。

所谓 AdaBelief,是指根据梯度方向上的 ” 信念 “(Belief)来调整训练的步长。它和 Adam 在算法上的差别并不大。

二者差别在下面的算法实现上可以轻易看出。

相比 Adam,AdaBelief 没有引入任何其他新参数,只是在最后一步更新时有差异,已在上图中用蓝色标出。

Adam 的更新方向是

,而 AdaBelief 的更新方向是

。vt 和 st 的差别在于,后者是

的指数移动平均(EMA)。

mt 可以看做是 gt 的预测值,当实际值与预测值相差不大时,分母

较小,步长较大,权重放心大胆迈开步子更新。

而实际值与预测值相差很大时,AdaBelief 倾向于 ” 不相信 ” 当前梯度,此时分母较大,更新步长较短。

为什么 AdaBelief 更好

只做在最后一步做了了一个小小的改变,未审核会产生如此之大的影响呢?

这主要是因为 AdaBelief 考虑了两点。

1、损失函数的曲率问题

理想的优化器应该考虑损失函数的曲线,而不是简单地在梯度较大的地方下采取较大的步长。

在 ” 大梯度、小曲率 “(图中区域 3)情况下

很小,优化器应增加其步长。

2、分母中的梯度符号

在上图损失函数为

的情况下,蓝色矢量代表梯度,十字叉代表最优解。

Adam 优化器在 y 方向上振荡,并在 x 方向上保持前进。这是由于

。在低方差情况下,Adam 中的更新方向接近 ” 符号下降 “。

而在 AdaBelief 中,

,因此 AdaBelief 在 x 方向上走了一大步,在 y 方向上只会走一小步,防止振荡产生。

实验结果

在简单的几种 3 维损失函数曲面上,AdamBelief 展现出了优秀的性能。

图像分类

在 CIFAR-10 和 CIFAR-100 数据集上,用 VGG11、ResNet34 和 DenseNet121 三种网络进行训练,AdaBelief 都显示出更好的收敛结果。

而且在 ImageNet 数据上,AdaBelief 在 Top-1 准确率上仅次于 SGD。

时间序列建模

在 Penn TreeBank 数据集上,用 LSTM 进行实验,AdaBelief 都实现了最低的困惑度。

GAN

在 WGAN 和 WGAN-GP 上的实验表明,经 AdaBelief 训练的结果都得到了最低的 FID。

网友质疑

虽然 AdaBelief 在多个任务上取得了不错的效果,但该方法还是遭到不少网友质疑。

因为这些年来号称取代 Adam 的优化器不计其数,但最终获得时间检验的却寥寥无几。

网友首先质疑的是实验 baseline 的选取问题。

有人认为,在 CIFAR 上,很难相信 2020 年 SOTA 模型的准确率低于 96%,因此 AdaBelief 论文最终在选取 baseline 时有可能是选择了与不太好的结果进行比较。

在 ImageNet 测试的表 2 里,为什么要使用 ResNet18 代替更标准的 ResNet50?而且 AdaBelief 不是最优结果,却用加粗方式标出,容易让人产生误解。绝妙的技巧是将提出的方法的得分加粗。

另外,还有人在作者未测试的 NLP 任务上进行实验,很快 AdaBelief 就 ” 崩溃 ” 了,而 SGD 能够很好地收敛。

AdaBelief 不会是最后一个意图取代 Adam 的优化器,它的泛化能力究竟如何,还有待更多研究者进一步地检验。

项目地址:

https://juntang-zhuang.github.io/adabelief/

论文地址:

https://arxiv.org/abs/2010.07468

代码地址:

https://github.com/juntang-zhuang/Adabelief-Optimizer

靠数学“拿了”两次诺贝尔奖,彭罗斯从“铺地砖”帮忙发现2011年化学奖的秘密

上一篇

用这种方式,我每次都是朋友圈里第一个预见AI科技趋势的人

下一篇

你也可能喜欢

Adam又要“退休”了?耶鲁大学团队提出AdaBelief,NeurIPS 2020收录,却引来网友质疑

长按储存图像,分享给朋友