开源版GPT4来了mixtral发布8x22BMoE

来自 @MistralAI 的新开源模型!

开源版GPT4来了mixtral发布8x22BMoE-2

昨天,Mistral 通过磁力链接发布了 Mixtral 8x22B 176B MoE。

开源版GPT4来了mixtral发布8x22BMoE-3

目前所知信息:

176B MoE,其中约40B 活跃

上下文长度为 65k 的 token

基础模型可以进行微调

fp16 中 VRAM 约为 260GB,int4 中 VRAM 约为 73GB

Apache 2.0,根据他们的 discord 描述

可在@huggingface(社区)获取

与之前的模型相同的标记器

未知信息:

没有官方评估或性能数据

没有关于相关或数据集的信息

没有关于语言支持的信息

型号:https://huggingface.co/mistral-community/Mixtral-8x22B-v0.1

模型文件出列出的相关信息:

1. Tokenizer 与 Mistral 7b 相同

2. Mixtral(4096,14336)新款(6144,16K),因此使用更大的基础模型。

3. 16bit 需要 258GB VRAM。BnB 4bit 73GB。HQQ 4bit 注意,2 bit MLP 58GB VRAM => H100 适合!

开源版GPT4来了mixtral发布8x22BMoE-4

在网友们还发愁怎么下载时,together.ai 已经上线了模型,可以在playground 体验:

开源版GPT4来了mixtral发布8x22BMoE-5

而同时,Mixtral 8x22B 现已在 MLX🚀 上线。

可以在配备超过96GB URAM的 Mac 上本地运行推理。

pip install -U mlx_lm

模型信息

🧠 1700亿参数

🪟65K 上下文窗口

🕵🏾‍♂️ 每个词牌配备8位专家,每个token 配 2 个专家

🤓32K 词表大小

✂️ 与7B模型使用类似的分词器

开源版GPT4来了mixtral发布8x22BMoE-6

版权声明:
作者:clash
链接:https://www.shadowrocket6.top/275.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>