英伟达突然放大招140训练量造出16更强的quot迷你杀手quot网友能不能搞定4

英伟达这是要 卷疯 了吗?

英伟达突然放大招140训练量造出16更强的quot迷你杀手quot网友能不能搞定4-2

刚刚,他们发布了两个新的大模型 Minitron 4B和8B ,竟然以 40倍更少的训练token 就干翻了Llama 3 8B和Mistral 7B!

英伟达突然放大招140训练量造出16更强的quot迷你杀手quot网友能不能搞定4-3

没错,你没看错,就是 1/40 !这是什么概念?就好比你以前要花40天才能学会的东西,现在只要1天就搞定了,而且学得还更好, 比老师 还强16% !

这简直就是AI界的 "迷你杀手" 啊!

那么,这个"迷你杀手"是怎么炼成的呢?

英伟达的秘诀是: 反复剪枝+蒸馏+重训练 。

就像园丁修剪树木一样,他们先是训练一个大模型,然后不断地"修剪"多余的部分,再把精华"蒸馏"出来,最后重新训练。

这样一来,模型虽然变小了,但能力却不减反增。

最牛的是,这个小不点儿在MMLU测试中的表现,居然可以和 Llama 3 8B 、 Mistral 7B 这些大块头一较高下。

而且,它只用了 94B个训练token 就达到了这个水平,这简直就是在打肿AI界的脸啊!

自称HuggingFaceGPU穷光蛋的Vaibhav (VB) Srivastav(@reach_vb)也忍不住赞叹道:

Nvidia releases Minitron 4B & 8B - iteratively pruning and distilling 2-4x smaller models from large LLMs, requiring 40x fewer training tokens and with 16% improvement on MMLU! 🔥

不过,这位仁兄显然还不满足,他调侃道:

Now.. how's going to do this L3.1 405B? 😉

这意思是说,你能不能也把Llama 新鲜泄漏的 405B 的大模型也这么压缩一下?

网友@AI_Sage评论说:

这简直就是AI界的"减肥教练"啊,把大模型练成小模型,还能练出更强的肌肉!

不过,英伟达目前只放出了4B和8B的基础版本,还没有放出指令版。

有网友吐槽说:

这不会又是英伟达的"饥饿营销"吧?先放个基础版吊胃口,等大家馋得不行了再放指令版。

不过更多人关心的是,既然4B就能干翻Mistral 7B,那 405B的大模型 还有必要吗?

网友@GPT_Whisperer 又一次echo 了llama 调侃道:

英伟达这是要把405B的大模型"剪"成40.5B吗?那岂不是要省下90%的计算资源?

但也有人持谨慎态度,比如@ML_Skeptic就说:

别高兴太早,4B能在某些任务上超越7B,不代表它在所有任务上都更强。大模型的通用性和鲁棒性可能还是更好的。

不过无论如何,英伟达这波操作确实给业界带来了不小的震动。

有人甚至开始畅想:

如果用这种方法继续"压缩"下去,是不是以后手机上也能跑超强的AI模型了?

看来大家都对英伟达的"缩小术"充满期待啊!

英伟达突然放大招140训练量造出16更强的quot迷你杀手quot网友能不能搞定4-4

不过话说回来,英伟达这次可是拿出了不少"看家本领":

KL散度 作为蒸馏的损失函数

重训练/蒸馏只用 logit loss 就够了,不需要CLM loss

反复剪枝 比一次性剪枝效果好

深度+宽度剪枝 效果最佳

对蒸馏后的检查点进行 轻量级神经架构搜索

就是这些"魔法",让英伟达创造了这个小巧但强大的AI。

有意思的是,英伟达只放出了4B和8B的基础模型,大家都在期待他们能不能也放出指令微调版本。

不得不说,英伟达这波操作,简直就是在用实力告诉大家: 人工智能,不只是要大,更要精!

版权声明:
作者:clash
链接:https://www.shadowrocket6.top/114.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>