GPT4omini登榜遭质疑ChatbotArena怒而公开数据

clash • 2026年1月18日 am7:40 • shadowrocket, Shadowrocket下载, Shadowrocket官网, Shadowrocket节点, 小火箭

GPT-4o mini 这个OpenAI 最新发布的"小鲜肉"，居然在 Chatbot Arena 排行榜上杀出重围，排名高得让人直呼有内幕！

人们一直在问为什么 GPT-4o mini 在 Arena 上的排名如此之高？看着此起彼伏的质疑声和赞叹声，那到底 GPT-4o mini 是"实力派"还是"注水选手"？咱们来扒一扒这它的底细！

实力派还是注水选手？

面对质疑声， lmsys.org （Large Model Systems Organization）这个Chatbot Arena 的主儿可不干了。他们直接放话：

想知道GPT-4o mini为啥这么能打？别光嘴上说，来Arena亲自试试！

看来是要让大伙儿亲自下场PK一番啊。

不过他们也提醒大家，别光看总榜，要看看各个分类的表现（见下图👇）。毕竟AI也是有专攻的嘛，有的擅长数学，有的擅长写代码，有的可能擅长讲段子（咳咳）。

数据公开，实力见真章

为了平息众怒，lmsys.org决定来个大招：公开数据！

他们承诺要放出 20%的GPT-4o mini对战数据，让大家自己瞅瞅到底咋回事。这波操作可以说是相当透明了，连"键盘侠"们都不得不竖起大拇指。

不过别高兴太早，他们还留了一手：

剩下的80%数据我们先藏着，免得你们过度拟合，把我们的benchmark玩坏了。

这波操作简直6，可以说是既开放又保守，既要让大家看到真相，又不想被人趁机钻了空子扒了底裤。

实在是高！

1000条对战数据，等你来挖宝

而就在今天， Wei-Lin Chiang （UC Berkeley的CS博士生）宣布：GPT-4o mini的1000条对战数据已经发布！

他强调：

这可不是挑三拣四的结果，而是真真儿的随机样本，让你看到最真实的分布。

更绝的是，他们还搞了个 Gradio demo （一种可交互的AI应用界面），你可以：

挑语言

选对手

筛胜负

想看GPT-4o mini在哪些方面特别牛，哪些方面还有待提高？

自己动手，丰衣足食！

用户们的花式问题

lmsys.org的小伙伴们看了这些数据，称：

我们看到用户们提出了各种各样的问题，从编程、数学、创意写作到信息搜索，应有尽有。这些真实场景下的提问，真是让我们大开眼界啊！

看来是被用户们的脑洞和创意给震惊到了。也是，AI模型嘛，就得经得起各种刁难才行。

碎碎念

lmsys.org最后还不忘感恩一波：

从第一天起，我们就超级感谢社区的支持。那些黑子们是阻止不了我们的，我们对科学评估的承诺坚如磐石！

不过他们也承认：

显然我们还在学习中，就像其他所有人一样。但我们会继续努力，为大家提供服务和洞察。

这自我反思和谦虚态度，也算是不卑不亢。

One More Thing

最后留个彩蛋：

有细心的网友发现，如果你想让AI在"9.11和9.9哪个大"这种问题上犯傻，可以试试把选项放在问题前面。反之，如果问题在前，AI就不会出错。

这告诉我们， AI的理解能力还是很依赖于问题的表述方式的。所以在使用AI的时候，记得要使用正确的姿势哦！

那么问题来了，你觉得这个GPT-4o mini到底几斤几两？

欢迎在评论区留言讨论！

版权声明：
作者：clash
链接：https://www.shadowrocket6.top/104.html
来源：Shadowrocket官网
文章版权归作者所有，未经允许请勿转载。

THE END

shadowrocket Shadowrocket下载 shadowrocket官网 Shadowrocket节点小火箭

二维码

AI秘密语言诞生大模型正偷偷密谋些什么

< <上一篇

AlexandrWang警告合成数据正让大模型走向quot近亲繁殖quot的低智商纯种狗

下一篇>>

搜索内容

GPT4omini登榜遭质疑ChatbotArena怒而公开数据

取消回复

共有 0 条评论

Shadowrocket高速节点推荐

标签

热门文章

好用的小火箭节点推荐 Shadowrocket 高速节点

GPT4omini登榜遭质疑ChatbotArena怒而公开数据

取消回复

共有 0 条评论

Shadowrocket高速节点推荐

标签

热门文章

好用的小火箭节点推荐 Shadowrocket 高速节点