Meta新研究LLMasaMetaJudge让AI自已当裁判

clash • 2026年1月18日 am7:40 • shadowrocket, Shadowrocket下载, Shadowrocket官网, Shadowrocket节点, 小火箭

Meta最新研究成果：让AI学会自己当裁判！

Meta的3步自学法

Meta、加州大学伯克利分校和纽约大学的研究团队最近发布了一篇新论文，提出了一种叫做" Meta-Rewarding "的方法。这个方法可谓是AI界的裁判"三步曲":

演员表演：让AI生成回答和自我评分

元评判：让AI对自己的评分再打分

边演边学：用DPO（Direct Preference Optimization）训练AI同时学会表演和评判

看起来简单，但这里面还有不少门道。

想象一下，AI不仅要当演员，还要当评委，更要当" 超级评委 "！这不就是选秀节目的终极形态吗？不过AI可比人类评委公平多了，至少不会收黑钱（笑）。

有网友@WorldEverett就调侃道：

希望这个评委不会接受贿赂（不像chatGPT :D）

AI如何当"超级评委"？

那AI怎么知道自己的评分是否准确呢？研究团队使用了一个叫" LLM-as-a-Meta-Judge "的方法：

对同一对回答进行N次判断

计算这些判断的两两比较矩阵

用 Elo评分系统（没错，就是国际象棋那个）给每个判断打分

根据Elo分数创建偏好对

听起来是不是很复杂？别担心，AI自己会搞定的，我们只需要坐等结果就行了。

效果完爆自我奖励！

研究团队在AlpacaEval 2和Arena-Hard两个基准测试上进行了实验，结果显示Meta-Rewarding方法完胜传统的Self-Rewarding方法。

更为厉害的是，Meta-Rewarding不仅提高了AI的表现能力，还提升了它的判断能力。用GPT-4来评判，Meta-Rewarding的判断结果与GPT-4的一致性更高。

看到这里，有网友@sinanonur忍不住感叹：

有趣的趋势是用自然语言+LLM替代优化器。看起来我们还可以递归地这样做。那么最好的元评判者是什么呢？不知道这能走多远 🙂

确实，这个研究方向太有想象力了！没准未来的AI可能会形成一个自我完善的生态系统，不断自我实现能力提升？

LeCun 怎么看？

研究一经发布，Yann LeCun就转发并表示：

LLM-as-a-meta-judge -> 自我改进的对齐。来自Meta FAIR、加州大学伯克利分校和纽约大学。显然是一个"公平"的评判。

网友@davidarduch提出了一个更深层次的问题：

这是不是意识模型的开始？...至少是婴儿学步阶段？

在LeCun 贴子下这么留言，小心被骂啊！要知道LeCun 对LLM 不能说深恶痛绝，但对LLM 具有意识这样的说法一定会疯狂喷击的。

不过，如果AI真的能不断自我完善，那离"有意识"可能真的不远了？

总结：AI的"自我修养"之路

Meta这项研究无疑为AI的发展开辟了一条新路。通过让AI同时扮演演员、评委和超级评委的角色，我们可能会得到一个更加智能、更加公正的AI系统。

不过，如研究团队所说，这只是一个开始。未来还有很多方向可以探索，比如如何设计更好的元奖励机制，如何在更复杂的任务中应用这种方法等等。

而研究的主要贡献者方面，Jason Weston 说到：

虽然许多作者来自Meta FAIR，但最大的功劳要归功于了不起的第一作者@WthThao，他在实习期间完成了大部分繁重工作。

一方面肯定了 WthThao，另一方面是看来，学术圈没我们打工人圈里这些弯弯绕绕啊！

那么问题来了：你觉得AI自己当裁判会不会更公平？

欢迎在评论区留言讨论！

版权声明：
作者：clash
链接：https://www.shadowrocket6.top/95.html
来源：Shadowrocket官网
文章版权归作者所有，未经允许请勿转载。

THE END

shadowrocket Shadowrocket下载 shadowrocket官网 Shadowrocket节点小火箭

二维码

吴恩达又开课了如何让你的AI应用不再答非所问

< <上一篇

英伟达最新项目GR00T突破让机器人像人类一样学习AI终于可以quot复制quot人类

下一篇>>

搜索内容

Meta新研究LLMasaMetaJudge让AI自已当裁判

取消回复

共有 0 条评论

Shadowrocket高速节点推荐

标签

热门文章

好用的小火箭节点推荐 Shadowrocket 高速节点

Meta新研究LLMasaMetaJudge让AI自已当裁判

取消回复

共有 0 条评论

Shadowrocket高速节点推荐

标签

热门文章

好用的小火箭节点推荐 Shadowrocket 高速节点