GPT4omini登榜遭质疑ChatbotArena怒而公开数据

GPT-4o mini 这个OpenAI 最新发布的"小鲜肉",居然在 Chatbot Arena 排行榜上杀出重围,排名高得让人直呼有内幕!

GPT4omini登榜遭质疑ChatbotArena怒而公开数据-2

人们一直在问为什么 GPT-4o mini 在 Arena 上的排名如此之高?看着此起彼伏的质疑声和赞叹声,那到底 GPT-4o mini 是"实力派"还是"注水选手"?咱们来扒一扒这它的底细!

实力派还是注水选手?

面对质疑声, lmsys.org (Large Model Systems Organization)这个Chatbot Arena 的主儿可不干了。他们直接放话:

想知道GPT-4o mini为啥这么能打?别光嘴上说, 来Arena亲自试试 !

看来是要让大伙儿亲自下场PK一番啊。

GPT4omini登榜遭质疑ChatbotArena怒而公开数据-3

不过他们也提醒大家, 别光看总榜 ,要看看各个分类的表现(见下图👇)。毕竟AI也是有专攻的嘛,有的擅长数学,有的擅长写代码,有的可能擅长讲段子(咳咳)。

GPT4omini登榜遭质疑ChatbotArena怒而公开数据-4

GPT4omini登榜遭质疑ChatbotArena怒而公开数据-5

GPT4omini登榜遭质疑ChatbotArena怒而公开数据-6

数据公开,实力见真章

为了平息众怒,lmsys.org决定来个大招: 公开数据 !

他们承诺要放出 20%的GPT-4o mini对战数据 ,让大家自己瞅瞅到底咋回事。这波操作可以说是相当透明了,连"键盘侠"们都不得不竖起大拇指。

不过别高兴太早,他们还留了一手:

剩下的80%数据我们先藏着,免得你们过度拟合,把我们的benchmark玩坏了。

这波操作简直6,可以说是既开放又保守,既要让大家看到真相,又不想被人趁机钻了空子扒了底裤。

实在是高!

1000条对战数据,等你来挖宝

而就在今天, Wei-Lin Chiang (UC Berkeley的CS博士生)宣布:GPT-4o mini的1000条对战数据已经发布!

他强调:

这可不是挑三拣四的结果,而是 真真儿的随机样本 ,让你看到最真实的分布。

更绝的是,他们还搞了个 Gradio demo (一种可交互的AI应用界面),你可以:

挑语 言

选 对手

筛胜 负

想看GPT-4o mini在哪些方面特别牛,哪些方面还有待提高?

自己动手,丰衣足食!

用户们的花式问题

lmsys.org的小伙伴们看了这些数据,称:

我们看到用户们提出了各种各样的问题,从 编程、数学、创意写作到信息搜索 ,应有尽有。这些真实场景下的提问,真是让我们大开眼界啊!

看来是被用户们的脑洞和创意给震惊到了。也是,AI模型嘛,就得经得起各种刁难才行。

碎碎念

lmsys.org最后还不忘感恩一波:

从第一天起,我们就超级感谢社区的支持。那些黑子们是阻止不了我们的,我们对科学评估的承诺坚如磐石!

不过他们也承认:

显然我们还在学习中,就像其他所有人一样。但我们会继续努力,为大家提供服务和洞察。

这自我反思和谦虚态度,也算是不卑不亢。

One More Thing

最后留个彩蛋:

有细心的网友发现,如果你想让AI在"9.11和9.9哪个大"这种问题上犯傻,可以试试把 选项放在问题前面 。反之,如果问题在前,AI就不会出错。

这告诉我们, AI的理解能力还是很依赖于问题的表述方式 的。所以在使用AI的时候,记得要使用正确的姿势哦!

那么问题来了, 你觉得这个GPT-4o mini到底几斤几两?

欢迎在评论区留言讨论!

版权声明:
作者:clash
链接:https://www.shadowrocket6.top/104.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>