Meta新研究LLMasaMetaJudge让AI自已当裁判

Meta最新研究成果: 让AI学会自己当裁判!

Meta新研究LLMasaMetaJudge让AI自已当裁判-2

Meta的3步自学法

Meta、加州大学伯克利分校和纽约大学的研究团队最近发布了一篇新论文,提出了一种叫做" Meta-Rewarding "的方法。这个方法可谓是AI界的裁判"三步曲":

演员表演 :让AI生成回答和自我评分

元评判 :让AI对自己的评分再打分

边演边学 :用DPO(Direct Preference Optimization)训练AI同时学会表演和评判

看起来简单,但这里面还有不少门道。

Meta新研究LLMasaMetaJudge让AI自已当裁判-3

想象一下,AI不仅要当演员,还要当评委,更要当" 超级评委 "!这不就是选秀节目的终极形态吗?不过AI可比人类评委公平多了,至少不会收黑钱(笑)。

有网友@WorldEverett就调侃道:

希望这个评委不会接受贿赂(不像chatGPT :D)

AI如何当"超级评委"?

那AI怎么知道自己的评分是否准确呢?研究团队使用了一个叫" LLM-as-a-Meta-Judge "的方法:

Meta新研究LLMasaMetaJudge让AI自已当裁判-4

对同一对回答进行N次判断

计算这些判断的两两比较矩阵

用 Elo评分系统 (没错,就是国际象棋那个)给每个判断打分

根据Elo分数创建偏好对

听起来是不是很复杂?别担心,AI自己会搞定的,我们只需要坐等结果就行了。

效果完爆自我奖励!

研究团队在AlpacaEval 2和Arena-Hard两个基准测试上进行了实验,结果显示Meta-Rewarding方法完胜传统的Self-Rewarding方法。

Meta新研究LLMasaMetaJudge让AI自已当裁判-5

更为厉害的是,Meta-Rewarding不仅提高了AI的表现能力,还提升了它的判断能力。用GPT-4来评判,Meta-Rewarding的判断结果与GPT-4的一致性更高。

Meta新研究LLMasaMetaJudge让AI自已当裁判-6

看到这里,有网友@sinanonur忍不住感叹:

有趣的趋势是用自然语言+LLM替代优化器。看起来我们还可以递归地这样做。那么最好的元评判者是什么呢?不知道这能走多远 🙂

Meta新研究LLMasaMetaJudge让AI自已当裁判-7

确实,这个研究方向太有想象力了!没准未来的AI可能会形成一个 自我完善的生态系统 ,不断自我实现能力提升?

LeCun 怎么看?

研究一经发布,Yann LeCun就转发并表示:

LLM-as-a-meta-judge -> 自我改进的对齐。来自Meta FAIR、加州大学伯克利分校和纽约大学。显然是一个"公平"的评判。

Meta新研究LLMasaMetaJudge让AI自已当裁判-8

网友@davidarduch提出了一个更深层次的问题:

这是不是意识模型的开始?...至少是婴儿学步阶段?

在LeCun 贴子下这么留言,小心被骂啊!要知道LeCun 对LLM 不能说深恶痛绝,但对LLM 具有意识这样的说法一定会疯狂喷击的。

不过,如果AI真的能不断自我完善,那离"有意识"可能真的不远了?

总结:AI的"自我修养"之路

Meta这项研究无疑为AI的发展开辟了一条新路。通过让AI同时扮演演员、评委和超级评委的角色,我们可能会得到一个更加智能、更加公正的AI系统。

Meta新研究LLMasaMetaJudge让AI自已当裁判-9

不过,如研究团队所说,这只是一个开始。未来还有很多方向可以探索,比如如何设计更好的元奖励机制,如何在更复杂的任务中应用这种方法等等。

而研究的主要贡献者方面,Jason Weston 说到:

虽然许多作者来自Meta FAIR,但最大的功劳要归功于了不起的第一作者@WthThao,他在实习期间完成了大部分繁重工作。

Meta新研究LLMasaMetaJudge让AI自已当裁判-10

一方面肯定了 WthThao,另一方面是 看来,学术圈没我们打工人圈里这些弯弯绕绕啊!

那么问题来了: 你觉得AI自己当裁判会不会更公平?

欢迎在评论区留言讨论!

版权声明:
作者:clash
链接:https://www.shadowrocket6.top/95.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>