Llama31霸榜都玩了哪些花样
最近,Meta的 Llama-3.1语言模型 在数学和推理任务上取得了惊人成绩,全网AI 从业者和吃瓜群众都在拜读、转发、点赞、试用。详 见前文: 
那么,Meta这次究竟玩了什么花样,才能取得如此成绩呢?

让我们一起来看看他们的秘密武器:
1. 高质量数据筛选
Meta用了一个特殊的 召回/分类器 ,在整个语料库中找出高质量的数学和代码数据。这招跟Deepseek-Coder-v2和Deepseek-Math有点像。
看来, 数据为王 的时代还没过去啊!
2. 领域特定HTML提取
这招在MAmmoTH2项目中也用过。 精准定位 才是王道!
3. 提高数学和推理token比例
现在这招好像已经成了标准配置?有内行人士表示:
提高数学和推理token的比例,你永远不会吃亏。
4. 精细校准数学技能
Meta还用了多样化的人工编写数学提示。有网友提出:
也许我们可以用Persona Hub来模拟这个过程?
链接:https://arxiv.org/abs/2406.20094
Meta 这波操作,简直就是 让AI去上补习班 啊!
5. 自我验证 加上 基于过程的奖励 。
Meta用Llama3进行自我验证,还带过程奖励。不过有研究员吐槽:
我从来没搞明白这招该怎么用。
自我批评 这招,AI都比我们许多人都强!
6. 交错使用CoT和PoT
这用来解决棘手问题。看来AI也学会了 左右互搏 !

这么多高端操作,不得不说,Llama 3.1真是下了一番苦功夫啊!
最惊人的是, Llama-3.1-400B 在MMLU-Pro上竟然拿下了 73.3% 的成绩!这已经快赶上GPT-4o了,虽然还是略落后于Sonnet-3.5。
有趣的是,有研究员表示他们只在Sonnet-3.5上得到了72.8%,而Meta却得到了77%。这中间足足差了4.2%!

这位研究员还幽默地说:
谁能告诉我Meta用的什么提示词,我就请他喝咖啡!
嗯,,怎么说呢?—— 提示工程 也是门技术活儿啊!
总的说来,Meta这次真是下了血本。从数据筛选到模型训练,再到评估方法,处处显露出他们的野心。
不过,OpenAI会不会有什么后招呢? Sam Altman 是不是正连夜开会商量是时候放出GPT-5了?
AI大战,好戏才刚刚开始啊!
你觉得,下一个AI 大事件会由谁来搞呢?
欢迎在评论区留言讨论!
版权声明:
作者:clash
链接:https://www.shadowrocket6.top/107.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论