Meta多token预测让AI从短视鬼变成了诸葛亮

各位兄弟,hold on to your butts,Meta一帮疯狂的研究员们又整了个大活!

他们刚发布的"Multi-token Prediction"论文简直就是 给AI装上了第三只眼,让它从只会看眼前的短视鬼变成了未卜先知的 诸葛亮!

Meta多token预测让AI从短视鬼变成了诸葛亮-2

这帮人到底整了什么妖蛾子?简单来说,就是 让AI一次预测多个未来的词,而不是像个蠢驴一样一个词一个词地猜 。这就像是从让AI玩21点变成了让它直接预测整个赌场一晚上的输赢!

Meta多token预测让AI从短视鬼变成了诸葛亮-3

你可能会问,这有什么了不起的?我告诉你,这 特么简直是革命性的突破 !用这种方法训练出来的13B参数模型,在HumanEval上多解决了12%的问题,在MBPP上更是多搞定了17%。这就像是给你家那只只会挠沙发的蠢猫突然开了窍,不仅会用猫砂,还学会了冲马桶!

更骚的是, 这种模型在推理时速度快了整整3倍 !这就像是把你那辆破旧的大众甲壳虫突然改装成了法拉利,而且还不用加92号汽油!

Meta多token预测让AI从短视鬼变成了诸葛亮-4

那么,这帮疯狂研究员们是怎么做到的呢?他们使用了一个叫" shared transformer trunk "的东西来产生一个潜在表示,然后用n个独立的输出头来并行预测下一个n个token。听起来像天书?简单点说,就是让AI长出了n个脑袋,每个脑袋负责预测一个未来的词,而这些脑袋共用一个身体。这简直就是AI界的九头蛇啊!

为了让这个怪物不会把你的显卡烧成废铁,他们还玩了个花活: 把前向传播和后向传播重新组织了一下 。这就像是让九头蛇学会了打太极,每个脑袋都能独立运动,但又能协调一致,简直优雅得不像话!

Meta多token预测让AI从短视鬼变成了诸葛亮-5

在推理阶段,这些额外的输出头还能用于" self-speculative decoding ",比如" blockwise parallel decoding "和" Medusa-like tree attention "。这听起来像是从《星际迷航》里偷来的黑科技,但实际上就是让AI变成了一个超级并行计算机,效率高得像是给CPU打了兴奋剂!

实验结果显示,这种多token预测方法对于 大模型来说简直是如虎添翼 。在Code运动会这种变态难的数据集上,用这种方法微调的模型完全吊打了传统模型。这就像是让一个业余拳击手突然学会了李小龙的截拳道,简直是降维打击!

对于自然语言任务,这种方法在生成类任务(比如摘要)上表现出色,同时在标准的多选题和负对数似然基准上也不掉链子。这就像是培养出了一个全能型选手,不仅能在NBA打主力,还能去佛罗里达当个称职的鳄鱼饲养员!

最后,这帮疯子还提出了一个假说: 多token预测可以减少训练时的"teacher forcing"和推理时的自回归生成之间的分布差异 。他们还提供了一个信息论分解,显示多token预测如何增加与文本延续相关的token的重要性。这听起来像是在解释量子力学,但其实就是在说,这种方法让AI变得更像人类,能够更好地理解上下文和长期依赖。

基于这篇论文,Meta 发布了四个模型:

Meta Chameleon :7B & 34B语言模型

Meta Multi-Token Prediction LLM

Meta JASCO :文本到音乐模型

Meta AudioSeal :音频水印模型

这简直就是在AI界又扔了一颗小核弹!其他公司现在估计都在抓耳挠腮,想着怎么才能赶上这趟火车。

Rohan Paul(@rohanpaul_ai) 对这项研究赞不绝口:

The "Multi-token Prediction" paper (April-2024) from @AIatMeta and behind the Chameleon family of models is such an innovative idea.

没错,这简直就是AI界的"芝麻开门",一下子打开了一扇新世界的大门!

各位兄弟,你们怎么看这项突破性的研究?是不是觉得AI已经离统治世界不远了?

别担心,就算AI再牛逼,它也不可能像你一样,在朦胧的KTV里一边抽着华子一边谈着人生。

相关链接

版权声明:
作者:clash
链接:https://www.shadowrocket6.top/146.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>