GPT2乘法能力突破正确率达100

你听说过GPT-2能做20位数乘法吗?还是 100%正确率 ?

没错,这不是标题党,而是 Cornell Tech的Jack Morris 最新分享的研究成果。

要知道,之前GPT-2连4位数乘法都搞不定,正确率仅有 可怜的30% 。

这次能力暴涨,靠的可不是加大模型、加深网络或者喂更多数据这些老套路。

关键在于一个 巧妙而复杂的训练方案 。

Jack Morris解释说:

GPT-2之前搞不定4位数乘法,不是因为层数不够、隐藏维度太小或者训练数据不行。这些都没问题, 真正的问题出在学习算法本身 。

那么,这个神奇的训练方案是怎么回事呢?

原来是结合了 思维链(Chain-of-Thought,CoT) 和 渐进式token移除 两大杀器。

具体来说:

先用思维链让模型学会一步步思考

然后随着模型能力提升,逐步减少推理步骤的token数量

最终达到模型能 内化思维过程 ,直接给出答案的效果。

这项研究来自论文《From Explicit CoT to Implicit CoT: Learning to Internalize CoT Step by Step》,发表才几个月。

Jack Morris认为,这个发现意义重大:

这清楚地表明,我们目前的优化方式(监督学习+SGD+Adam) 并不是最优的 。显然还有更好的学习算法等待我们去发现。

这下可给网友们炸开了锅。

有人感叹:

这不就是咱们从小学到的" 先打草稿,后心算 "吗?AI也要从显式推理过渡到隐式推理啊!

还有技术大佬 Lucas Beyer 跳出来说:

其实几年前我们的蒸馏论文就指出过类似观点。我们从一个标准ResNet50(ImageNet准确率83%)中榨出了远超预期的性能,这说明标准训练方法 严重不够用 了。

看来,大模型" 学习方法革命 "正在悄然兴起啊!

不过话说回来,就算GPT-2能算20位数乘法了,你还记得上次自己动手算20位数乘法是什么时候吗?

反正我是想不起来了……可能人类自以为擅长的某些方面其实正在被AI甩开了。

那么问题来了:

你觉得这种新的训练方法能让AI 知道9.11和9.9哪个大吗?

欢迎在评论区分享你的看法!

模型Demo体验地址:

https://huggingface.co/spaces/yuntian-deng/gpt2-multiplication

论文地址:

https://arxiv.org/pdf/2405.14838

版权声明:
作者:clash
链接:https://www.shadowrocket6.top/101.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>