Llama31霸榜都玩了哪些花样

最近,Meta的 Llama-3.1语言模型 在数学和推理任务上取得了惊人成绩,全网AI 从业者和吃瓜群众都在拜读、转发、点赞、试用。详 见前文: Llama31霸榜都玩了哪些花样-2

那么,Meta这次究竟玩了什么花样,才能取得如此成绩呢?

Llama31霸榜都玩了哪些花样-3

让我们一起来看看他们的秘密武器:

1. 高质量数据筛选

Meta用了一个特殊的 召回/分类器 ,在整个语料库中找出高质量的数学和代码数据。这招跟Deepseek-Coder-v2和Deepseek-Math有点像。

看来, 数据为王 的时代还没过去啊!

2. 领域特定HTML提取

这招在MAmmoTH2项目中也用过。 精准定位 才是王道!

3. 提高数学和推理token比例

现在这招好像已经成了标准配置?有内行人士表示:

提高数学和推理token的比例,你永远不会吃亏。

4. 精细校准数学技能

Meta还用了多样化的人工编写数学提示。有网友提出:

也许我们可以用Persona Hub来模拟这个过程?

链接:https://arxiv.org/abs/2406.20094

Meta 这波操作,简直就是 让AI去上补习班 啊!

5. 自我验证 加上 基于过程的奖励 。

Meta用Llama3进行自我验证,还带过程奖励。不过有研究员吐槽:

我从来没搞明白这招该怎么用。

自我批评 这招,AI都比我们许多人都强!

6. 交错使用CoT和PoT

这用来解决棘手问题。看来AI也学会了 左右互搏 !

Llama31霸榜都玩了哪些花样-4

这么多高端操作,不得不说,Llama 3.1真是下了一番苦功夫啊!

最惊人的是, Llama-3.1-400B 在MMLU-Pro上竟然拿下了 73.3% 的成绩!这已经快赶上GPT-4o了,虽然还是略落后于Sonnet-3.5。

有趣的是,有研究员表示他们只在Sonnet-3.5上得到了72.8%,而Meta却得到了77%。这中间足足差了4.2%!

Llama31霸榜都玩了哪些花样-5

这位研究员还幽默地说:

谁能告诉我Meta用的什么提示词,我就请他喝咖啡!

嗯,,怎么说呢?—— 提示工程 也是门技术活儿啊!

总的说来,Meta这次真是下了血本。从数据筛选到模型训练,再到评估方法,处处显露出他们的野心。

不过,OpenAI会不会有什么后招呢? Sam Altman 是不是正连夜开会商量是时候放出GPT-5了?

AI大战,好戏才刚刚开始啊!

你觉得,下一个AI 大事件会由谁来搞呢?

欢迎在评论区留言讨论!

版权声明:
作者:clash
链接:https://www.shadowrocket6.top/107.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>