重磅Mistral发布Large2123B大模型PKMeta王炸网友疯了疯了都疯了

我们可能正在见证一场AI界的地震。

不是地震, 是特么的海啸!

重磅Mistral发布Large2123B大模型PKMeta王炸网友疯了疯了都疯了-2

昨天Meta发布的 Llama 3.1 还没消停,就在刚刚,法国AI公司 Mistral 又杀出来,宣布了自家 Large 2 123B大作 !

重磅Mistral发布Large2123B大模型PKMeta王炸网友疯了疯了都疯了-3

这次新模型可是 下了血本 啊:

123B参数 ,比上代70B足足翻了近一倍

128K上下文窗口 ,长文处理不在话下

支持 11种语言 ,包括中文、日语、韩语等

训练了 80+种编程语言 ,连Swift和Fortran都有

原生支持 函数调用 和 结构化输出

看到这些参数,有网友直呼:

那些疯狂的开源混蛋真要赢了哈哈哈哈,这是最好的时间线!

重磅Mistral发布Large2123B大模型PKMeta王炸网友疯了疯了都疯了-4

Image 2: Detailed benchmarks

从官方放出的性能数据来看,这次 真有点东西 :

MMLU :84.0% vs 79.3% (70B) vs 85.2% (405B)

HumanEval :92% vs 80.5% (70B Ins) vs 89% (405B Ins)

GSM8K :93% vs 95.5% (70B Ins) vs 96.8% (405B Ins)

也就是说,在某些任务上,这个 123B的模型已经能和Llama 3 405B掰掰手腕 ,几乎平手了!

有网友看到这个结果直接惊呼:

改个许可证你就偷走了Meta的整个策略。值了。

不过话说回来,对硬件要求也是杠杠的:

fp16/bf16:约250GB显存

fp8/int8:约125GB显存

int4:约60GB显存

昨天刚被Meta 炸,今天又被Mistral 震,网友真的麻了,称:

这是我试图跟上开源AI最新进展的样子

重磅Mistral发布Large2123B大模型PKMeta王炸网友疯了疯了都疯了-5

除了常规的NLP任务,这次Mistral还在 代码生成 上下了大功夫。

重磅Mistral发布Large2123B大模型PKMeta王炸网友疯了疯了都疯了-6

Image 3: Detailed benchmarks

重磅Mistral发布Large2123B大模型PKMeta王炸网友疯了疯了都疯了-7

Image 4: Detailed benchmarks

从上面可以看出,在代码生成方面,新模型甚至 超过了GPT-4 !

有网友对此表示期待:

Mistral的前作Codestral Mamba就很强,这次的Large 2肯定会在复杂代码生成上更厉害。

重磅Mistral发布Large2123B大模型PKMeta王炸网友疯了疯了都疯了-8

Image 5: Detailed benchmarks

在数学推理方面,新模型也有不俗表现。GSM8K和MATH两个基准测试上,都和顶级模型不相上下。

除了性能,Mistral还特别强调了模型的 指令跟随能力 和 对话能力 。

重磅Mistral发布Large2123B大模型PKMeta王炸网友疯了疯了都疯了-9

Image 6: Detailed benchmarks

从MT-Bench、Wild Bench和Arena Hard这几个基准测试上看,新模型在这方面也是 相当能打 。

不过Mistral还特别提到了一点:

在某些基准测试中,生成较长的回复往往会提高分数。然而,在许多商业应用中,简洁至关重要 - 简短的模型生成有助于更快的交互,并且在推理方面更具成本效益。

重磅Mistral发布Large2123B大模型PKMeta王炸网友疯了疯了都疯了-10

Image 7: MT Bench benchmarks

在MT Bench基准测试的问题上,Mistral Large 2的平均生成长度 明显短于其他模型 。

这一点确实很有意思。毕竟在实际应用中,又快又准才是王道。

在多语言能力方面,新模型也是 相当给力 :

重磅Mistral发布Large2123B大模型PKMeta王炸网友疯了疯了都疯了-11

Image 8: Detailed benchmarks

重磅Mistral发布Large2123B大模型PKMeta王炸网友疯了疯了都疯了-12

Image 9: Detailed benchmarks

从多语言MMLU基准测试结果来看,Mistral Large 2在各个语种上都有不错表现, 尤其是在法语、德语和西班牙语上 。

最后,在工具使用和函数调用方面,新模型也是 下足了功夫 :

重磅Mistral发布Large2123B大模型PKMeta王炸网友疯了疯了都疯了-13

Image 10: Detailed benchmarks

可以看到,Mistral Large 2在这方面甚至 了GPT-4和Claude 3 !至于有没有超过Llama 3.1,估计是 时间撞车了,没来得及评吧!

看到这里,有网友调侃道:

Llama 3.1,接好我的啤酒...

确实,这波Mistral来得 又快又猛 ,Meta这边估计得加把劲儿了。

不过也有网友表示担心:

把许可证改成Apache 2.0或类似的,你就赢了。

毕竟目前Mistral Large 2是在 Mistral Research License 下发布的,这个许可证只允许研究和非商业用途。

重磅Mistral发布Large2123B大模型PKMeta王炸网友疯了疯了都疯了-14

Image 11: Detailed benchmarks

总的来说,这次Mistral的新作确实又双叒叕一次给开源AI界带来了巨大震动。

有网友直呼:

7月似乎是开源的好月份!

确实,从Llama 3到Mistral Large 2,再到之前的Claude 3,这波AI界的"夏日大狂欢"真是 一波未平一波又起 啊!

而网友 弗洛里安 S @airesearch12 在惊呼:

太棒了!Meta发布Llama 3.1的一天后!🔥

的同时也不忘手动艾特一波OpenAI:

@OpenAI 赶紧发布GPT-5吧,如果你们真的有的话(我开始怀疑了——越来越觉得你们只是把它改名为GPT-4o,因为它不够强大)。

看来,Sam Altman 是该努力一把了!

重磅Mistral发布Large2123B大模型PKMeta王炸网友疯了疯了都疯了-15

那么问题来了, 你更看好哪家呢?

欢迎在评论区留言讨论~

相关链接

[1] https://mistral.ai/news/mistral-large-2407/

版权声明:
作者:clash
链接:https://www.shadowrocket6.top/109.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>