开源版GPT4来了mixtral发布8x22BMoE
来自 @MistralAI 的新开源模型!

昨天,Mistral 通过磁力链接发布了 Mixtral 8x22B 176B MoE。

目前所知信息:
176B MoE,其中约40B 活跃
上下文长度为 65k 的 token
基础模型可以进行微调
fp16 中 VRAM 约为 260GB,int4 中 VRAM 约为 73GB
Apache 2.0,根据他们的 discord 描述
可在@huggingface(社区)获取
与之前的模型相同的标记器
未知信息:
没有官方评估或性能数据
没有关于相关或数据集的信息
没有关于语言支持的信息
型号:https://huggingface.co/mistral-community/Mixtral-8x22B-v0.1
模型文件出列出的相关信息:
1. Tokenizer 与 Mistral 7b 相同
2. Mixtral(4096,14336)新款(6144,16K),因此使用更大的基础模型。
3. 16bit 需要 258GB VRAM。BnB 4bit 73GB。HQQ 4bit 注意,2 bit MLP 58GB VRAM => H100 适合!

在网友们还发愁怎么下载时,together.ai 已经上线了模型,可以在playground 体验:

而同时,Mixtral 8x22B 现已在 MLX🚀 上线。
可以在配备超过96GB URAM的 Mac 上本地运行推理。
pip install -U mlx_lm
模型信息
🧠 1700亿参数
🪟65K 上下文窗口
🕵🏾♂️ 每个词牌配备8位专家,每个token 配 2 个专家
🤓32K 词表大小
✂️ 与7B模型使用类似的分词器

版权声明:
作者:clash
链接:https://www.shadowrocket6.top/275.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论