OpenAI创始成员兼特斯拉前AI负责人AndrejKarpathy谈大模型评估一场裁判
今天的主题,是关于人工智能领域的一个有趣的玄学问题: 大模型评估 。
在这一竞赛中,评估者和模型开发者之间的 角力 愈发激烈。 Scale AI 最近推出的SEAL排行榜,算是这一领域的新进展。

SEAL 排行榜
Alexandr Wang 在他的推文中宣布了SEAL排行榜的推出,强调了其设计原则:
私密且不可利用 :评估过程防止过拟合。
专家领域评估 :由领域专家进行专业评估。
持续更新 :定期引入新数据和新模型。
Alexandr Wang 称:
评估是 AI 生态系统的关键组成部分。
评估是研究人员的激励,而我们的评估设定了我们改进模型的目标。
可信的第三方评估是整个生态系统中缺失的一环,这也是为什么 @scale_AI 建立了这些评估。
我们评估了许多领先的模型:
GPT-4o
GPT-4 Turbo
Claude 3 Opus
Gemini 1.5 Pro
Gemini 1.5 Flash
Llama3
Mistral Large
在编程、数学、指令遵循和多语言(西班牙语)方面进行评估。
SEAL 排行榜,(见http://scale.com/leaderboard)


评估不仅为研究人员提供激励,还设定了改进模型的目标。可信的第三方评估是整个AI生态系统中长期缺失的一环,Scale AI 的努力正是为了解决这一问题。

Karpathy 谈评估的挑战
OpenAI 创始成员,兼特斯拉前AI 负责人 Andrej Karpathy 指出,LLM(大语言模型)评估的现状曾一度非常糟糕,定性体验与定量排名常常不一致。构建好的评估非常困难,评估必须全面、具有代表性并且高质量。同时,还要测量梯度信号,这需要大量细节的考虑和精确的执行。
原因在于构建有效的评估方法非常困难。Karpathy 以自身经验为例,在特斯拉工作期间,他将三分之一的时间用于数据,三分之一用于评估,剩余时间用于其他工作。
Karpathy 认为评估方法必须全面、具有代表性、高质量,并能衡量梯度信号(即难度适中),需要仔细考虑许多细节,才能确保定量和定性评估结果一致。
Karpathy 还推荐了 Open LLM Leaderboard MMLU 写作指南,作为深入了解评估方法的参考。
见:https://github.com/huggingface/blog/blob/main/open-llm-leaderboard-mmlu.md

他还指出所有公开的测试数据集都不可避免地会被泄露到训练集中。这会导致模型记住答案,影响评估结果的准确性。
即使 LLM 开发人员尽力避免,也很难阻止测试集渗入训练集。这也是为什么私密评估如GSM1k变得越来越重要。

最后,Karpathy 提出了几个问题:
如何过滤掉合成数据重写或相关在线讨论?
如何防止开发人员将测试集嵌入向量并针对与测试集高度一致的数据进行训练?
并非所有我们关心的 LLM 任务都能自动评估,例如摘要等任务需要人工参与。
在人工评估时,如何控制所有相关变量,例如人们对答案、长度、风格的关注程度,以及对拒绝的处理方式等?
总之,构建有效的评估方法非常困难且工作量大,但非常重要。Karpathy 对更多组织加入评估工作表示欢迎。
社区回应
社区对SEAL排行榜的推出反应积极。 ludwig 幽默地表示,“评估 LLM 的唯一正确方法你们都知道是什么”,配上了一张搞笑的图片。
Wolfram Ravenwolf 则表示,他正在重新设计自己的测试,以提供更多的数据点。
Noam Brown 指出,顶级模型已经占领了现有的数学基准,需要更难的挑战。他建议新的评估应涵盖广泛的难度水平,并设置在超过人类顶级水平之上。
Dustin Tran 则是补充了几个重要的评估方向:
版权声明:
作者:clash
链接:https://www.shadowrocket6.top/195.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论