重磅Mistral发布Large2123B大模型PKMeta王炸网友疯了疯了都疯了
我们可能正在见证一场AI界的地震。
不是地震, 是特么的海啸!

昨天Meta发布的 Llama 3.1 还没消停,就在刚刚,法国AI公司 Mistral 又杀出来,宣布了自家 Large 2 123B大作 !

这次新模型可是 下了血本 啊:
123B参数 ,比上代70B足足翻了近一倍
128K上下文窗口 ,长文处理不在话下
支持 11种语言 ,包括中文、日语、韩语等
训练了 80+种编程语言 ,连Swift和Fortran都有
原生支持 函数调用 和 结构化输出
看到这些参数,有网友直呼:
那些疯狂的开源混蛋真要赢了哈哈哈哈,这是最好的时间线!

Image 2: Detailed benchmarks
从官方放出的性能数据来看,这次 真有点东西 :
MMLU :84.0% vs 79.3% (70B) vs 85.2% (405B)
HumanEval :92% vs 80.5% (70B Ins) vs 89% (405B Ins)
GSM8K :93% vs 95.5% (70B Ins) vs 96.8% (405B Ins)
也就是说,在某些任务上,这个 123B的模型已经能和Llama 3 405B掰掰手腕 ,几乎平手了!
有网友看到这个结果直接惊呼:
改个许可证你就偷走了Meta的整个策略。值了。
不过话说回来,对硬件要求也是杠杠的:
fp16/bf16:约250GB显存
fp8/int8:约125GB显存
int4:约60GB显存
昨天刚被Meta 炸,今天又被Mistral 震,网友真的麻了,称:
这是我试图跟上开源AI最新进展的样子

除了常规的NLP任务,这次Mistral还在 代码生成 上下了大功夫。

Image 3: Detailed benchmarks

Image 4: Detailed benchmarks
从上面可以看出,在代码生成方面,新模型甚至 超过了GPT-4 !
有网友对此表示期待:
Mistral的前作Codestral Mamba就很强,这次的Large 2肯定会在复杂代码生成上更厉害。

Image 5: Detailed benchmarks
在数学推理方面,新模型也有不俗表现。GSM8K和MATH两个基准测试上,都和顶级模型不相上下。
除了性能,Mistral还特别强调了模型的 指令跟随能力 和 对话能力 。

Image 6: Detailed benchmarks
从MT-Bench、Wild Bench和Arena Hard这几个基准测试上看,新模型在这方面也是 相当能打 。
不过Mistral还特别提到了一点:
在某些基准测试中,生成较长的回复往往会提高分数。然而,在许多商业应用中,简洁至关重要 - 简短的模型生成有助于更快的交互,并且在推理方面更具成本效益。

Image 7: MT Bench benchmarks
在MT Bench基准测试的问题上,Mistral Large 2的平均生成长度 明显短于其他模型 。
这一点确实很有意思。毕竟在实际应用中,又快又准才是王道。
在多语言能力方面,新模型也是 相当给力 :

Image 8: Detailed benchmarks

Image 9: Detailed benchmarks
从多语言MMLU基准测试结果来看,Mistral Large 2在各个语种上都有不错表现, 尤其是在法语、德语和西班牙语上 。
最后,在工具使用和函数调用方面,新模型也是 下足了功夫 :

Image 10: Detailed benchmarks
可以看到,Mistral Large 2在这方面甚至 了GPT-4和Claude 3 !至于有没有超过Llama 3.1,估计是 时间撞车了,没来得及评吧!
看到这里,有网友调侃道:
Llama 3.1,接好我的啤酒...
确实,这波Mistral来得 又快又猛 ,Meta这边估计得加把劲儿了。
不过也有网友表示担心:
把许可证改成Apache 2.0或类似的,你就赢了。
毕竟目前Mistral Large 2是在 Mistral Research License 下发布的,这个许可证只允许研究和非商业用途。

Image 11: Detailed benchmarks
总的来说,这次Mistral的新作确实又双叒叕一次给开源AI界带来了巨大震动。
有网友直呼:
7月似乎是开源的好月份!
确实,从Llama 3到Mistral Large 2,再到之前的Claude 3,这波AI界的"夏日大狂欢"真是 一波未平一波又起 啊!
而网友 弗洛里安 S @airesearch12 在惊呼:
太棒了!Meta发布Llama 3.1的一天后!🔥
的同时也不忘手动艾特一波OpenAI:
@OpenAI 赶紧发布GPT-5吧,如果你们真的有的话(我开始怀疑了——越来越觉得你们只是把它改名为GPT-4o,因为它不够强大)。
看来,Sam Altman 是该努力一把了!

那么问题来了, 你更看好哪家呢?
欢迎在评论区留言讨论~
相关链接
[1] https://mistral.ai/news/mistral-large-2407/
版权声明:
作者:clash
链接:https://www.shadowrocket6.top/109.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论