ScheduleFree超现实优化器
研究员Yuchen Jin分享了他使用Aaron Defazio的Schedule-Free优化器训练GPT-2 (124M)模型的实验结果,引发了业内专家的热烈讨论。
Yuchen Jin在Andrej Karpathy的nanoGPT框架上进行了实验,对比了AdamW优化器和Schedule-Free AdamW优化器的表现:
设置:AdamW学习率为0.0018,预热步数700;Schedule-Free AdamW默认学习率0.0025,预热步数700
观察结果:
两种优化器的损失曲线相似
AdamW的最低验证损失为3.2,Schedule-Free AdamW为3.29
Schedule-Free优化器对学习率调整不敏感
Yuchen Jin认为,AdamW验证损失略低的主要原因是其余弦退火阶段帮助降低了损失。但Schedule-Free AdamW没有预设停止点,可能通过额外训练达到相同甚至更低的损失。
他强调,Schedule-Free优化器的主要优势是无需提前指定停止时间/步数,只需在PyTorch中修改几行代码即可使用。Yuchen Jin表示很高兴能减少一个超参数的设置。

这一实验结果引发了其他研究者的关注。Lucas Nestler表示,Schedule-Free优化器的表现令人惊叹。他最初认为这只是对现有优化器的渐进式改进,但实际测试后发现其收敛性能远超经过调优的优化器。Lucas Nestler将其比作"相比大多数优化器,像是用制导导弹进行训练"。
然而,Google DeepMind的研究员Lucas Beyer对此持谨慎态度。他质疑道:
Lucas Beyer (bl16) 对Schedule-Free优化器的主要优势提出质疑:
如果这是主要优势,那不值得吧?你为了rsqrt调度免费给你的东西付出了额外的模型内存拷贝代价?
Schedule-Free优化器的实际效果和应用价值还有待进一步验证和探索。作为一项可能的优化技术,它可能会与其他方法结合,而具体怎么个结合,就看各位了!
Lucas Nestler 点评:
Schedule-free 优化器 (x.com/aaron_defazio/) 非常超现实
我读了论文,研究了数学,并试图理解发生了什么。这一切看起来最多是一个渐进的改进(像 LaProp (arxiv.org/abs/2002.04839) 或 Adam-Atan2 (openreview.net/forum?id=0ksNe))。这可以归结为在大多数标准优化之上进行所有先前参数均值的线性插值。
和许多人一样,我也认为提供的损失曲线过于平滑,看起来像是生成的。在噪声数据集(如 ImageNet,大约10%的标签错误,arxiv.org/abs/2006.07159)上,用深度模型如 ResNet-50,绝对不可能出现如此完美的损失曲线!
所以,当我看到它与一个专门为我的问题设置共同开发并调整过的优化器相比的开箱即用收敛情况时,我简直不敢相信我的眼睛:
自定义优化器的任何附加功能都没有被回移,因此训练不使用梯度截断(之前融合的)或学习率衰减。上面的运行仅作为一个简单的测试。
引用关于 AdaHessian 的话:“与大多数其他优化器相比,就像用制导导弹进行训练。” (github.com/lessw2020/Best) 即使通过精确设计的玩具问题来利用它的弱点将其排除在分布之外,我可以减少它的优势,但从未能击败它。例如,下面是一个噪声(但确定性、大而难的)玩具问题中超参数搜索时的前50个设置。
即使是高级(且更昂贵的)优化器组合,如 AdamW#Shampoo,在我的实验中也未达到这种改进水平。(参见 x.com/_clashluke/sta)这似乎是实际和理论优化研究的突破。我迫不及待地想看到它与正交研究结合,例如 Shampoo 风格的二阶优化、LaProp 风格的解耦、Atan2、梯度截断和 LION 风格的抗噪声能力。
相关链接
版权声明:
作者:clash
链接:https://www.shadowrocket6.top/144.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论