Meta多token预测让AI从短视鬼变成了诸葛亮

clash • 2026年1月18日 am7:40 • shadowrocket, Shadowrocket下载, Shadowrocket官网, Shadowrocket节点, 小火箭

各位兄弟，hold on to your butts，Meta一帮疯狂的研究员们又整了个大活！

他们刚发布的"Multi-token Prediction"论文简直就是给AI装上了第三只眼，让它从只会看眼前的短视鬼变成了未卜先知的诸葛亮！

这帮人到底整了什么妖蛾子？简单来说，就是让AI一次预测多个未来的词，而不是像个蠢驴一样一个词一个词地猜。这就像是从让AI玩21点变成了让它直接预测整个赌场一晚上的输赢！

你可能会问，这有什么了不起的？我告诉你，这特么简直是革命性的突破！用这种方法训练出来的13B参数模型，在HumanEval上多解决了12%的问题，在MBPP上更是多搞定了17%。这就像是给你家那只只会挠沙发的蠢猫突然开了窍，不仅会用猫砂，还学会了冲马桶！

更骚的是，这种模型在推理时速度快了整整3倍！这就像是把你那辆破旧的大众甲壳虫突然改装成了法拉利，而且还不用加92号汽油！

那么，这帮疯狂研究员们是怎么做到的呢？他们使用了一个叫" shared transformer trunk "的东西来产生一个潜在表示，然后用n个独立的输出头来并行预测下一个n个token。听起来像天书？简单点说，就是让AI长出了n个脑袋，每个脑袋负责预测一个未来的词，而这些脑袋共用一个身体。这简直就是AI界的九头蛇啊！

为了让这个怪物不会把你的显卡烧成废铁，他们还玩了个花活：把前向传播和后向传播重新组织了一下。这就像是让九头蛇学会了打太极，每个脑袋都能独立运动，但又能协调一致，简直优雅得不像话！

在推理阶段，这些额外的输出头还能用于" self-speculative decoding "，比如" blockwise parallel decoding "和" Medusa-like tree attention "。这听起来像是从《星际迷航》里偷来的黑科技，但实际上就是让AI变成了一个超级并行计算机，效率高得像是给CPU打了兴奋剂！

实验结果显示，这种多token预测方法对于大模型来说简直是如虎添翼。在Code运动会这种变态难的数据集上，用这种方法微调的模型完全吊打了传统模型。这就像是让一个业余拳击手突然学会了李小龙的截拳道，简直是降维打击！

对于自然语言任务，这种方法在生成类任务（比如摘要）上表现出色，同时在标准的多选题和负对数似然基准上也不掉链子。这就像是培养出了一个全能型选手，不仅能在NBA打主力，还能去佛罗里达当个称职的鳄鱼饲养员！

最后，这帮疯子还提出了一个假说：多token预测可以减少训练时的"teacher forcing"和推理时的自回归生成之间的分布差异。他们还提供了一个信息论分解，显示多token预测如何增加与文本延续相关的token的重要性。这听起来像是在解释量子力学，但其实就是在说，这种方法让AI变得更像人类，能够更好地理解上下文和长期依赖。

基于这篇论文，Meta 发布了四个模型：

Meta Chameleon ：7B & 34B语言模型

Meta Multi-Token Prediction LLM

Meta JASCO ：文本到音乐模型

Meta AudioSeal ：音频水印模型

这简直就是在AI界又扔了一颗小核弹！其他公司现在估计都在抓耳挠腮，想着怎么才能赶上这趟火车。

Rohan Paul(@rohanpaul_ai) 对这项研究赞不绝口:

The "Multi-token Prediction" paper (April-2024) from @AIatMeta and behind the Chameleon family of models is such an innovative idea.

没错，这简直就是AI界的"芝麻开门"，一下子打开了一扇新世界的大门！

各位兄弟，你们怎么看这项突破性的研究？是不是觉得AI已经离统治世界不远了？

别担心，就算AI再牛逼，它也不可能像你一样，在朦胧的KTV里一边抽着华子一边谈着人生。

搜索内容

Meta多token预测让AI从短视鬼变成了诸葛亮

取消回复

共有 0 条评论

Shadowrocket高速节点推荐

标签

热门文章

好用的小火箭节点推荐 Shadowrocket 高速节点

Meta多token预测让AI从短视鬼变成了诸葛亮

取消回复

共有 0 条评论

Shadowrocket高速节点推荐

标签

热门文章

好用的小火箭节点推荐 Shadowrocket 高速节点