OpenAI前创始成员特斯拉自动驾驶前负责人AndrejKarpathy发表MetaL

OpenAI前创始成员特斯拉自动驾驶前负责人AndrejKarpathy发表MetaL-2

Meta 在其官网发布Llama 3 并称: 迄今为止最强的开源大语言模型。

OpenAI 前创始成员、特斯拉自动驾驶前负责人 Andrej Karpathy 也第一时间表示 恭喜:

恭喜 @AIatMeta 发布了 Llama 3! 🎉

https://ai.meta.com/blog/meta-llama-3/

OpenAI前创始成员特斯拉自动驾驶前负责人AndrejKarpathy发表MetaL-3

并发表了自己的 Llama 3 笔记:

模型发布

发布了8B和70B(基础和微调)模型,在它们各自的模型类别中表现强劲(但排名出来后我们再看 @ @lmsysorg :))

对标GPT-4 的400B 模型在训练中

400B模型仍在训练中,但已经在逼近GPT-4的领域(例如84.8 MMLU vs. 86.5 4Turbo)。

Tokenizer

词表数量从Llama 2的32K增加到Llama 3的128K,增加了4倍。拥有更大的词表可以在长度上更有效地压缩序列,引用了15%更少的词汇,并看到了更好的下游性能。

网络 架构

与Llama 2相比没有重大变化。在Llama 2中,只有更大的模型使用了分组查询注意力(GQA),但现在所有模型都使用了,包括最小的8B模型。这是一种在注意力机制中对键/值进行参数共享的方案,可以减少推理过程中KV缓存的大小。这是一个好的、受欢迎的复杂度降低修复和优化。

序列长度

上下文窗口中的最大标号数从Llama 2的4096和Llama 1的2048增加到了8192。这个提升很棒了,但与现代标准(例如GPT-4是128K)相比相当小,我认为许多人希望在这方面有更大的提升。可能会在后续微调中出现(?)。

训练数据

Llama 2是在2万亿标号上训练的,Llama 3增加到了15T训练数据集,包括对质量的大量关注,4倍多的数据,以及超过30种语言的5%非英语语料。(5%相对于非英语:英语混合来说相当低,所以这肯定是一个主要使用英语的模型,但它超过0是相当好的)。

Scaling laws

非常值得注意的是,15T对于一个“小”到8B参数的模型来说是一个非常非常大的数据集,这通常不会这样做,这是新的,非常受欢迎的。对于一个8B模型,Chinchilla的“计算最优”点将是训练约200B数据。(如果你只对在那个大小下获得模型性能的“性价比”感兴趣)。所以这是训练超出了75倍,这很不寻常,但我个人认为是极其受欢迎的。因为我们所有人都得到了一个非常有能力、非常小、易于使用和推理的模型。Meta提到,即使在这个点上,模型似乎也没有以标准意义上“收敛”。换句话说,我们经常使用的LLMs(大型语言模型)在训练上显著不足,可能是100-1000倍或更多,远未达到它们的收敛点。我真的希望人们继续这一趋势,开始训练和发布更多长期训练的、甚至更小的模型。

系统

Llama 3被引用为使用16K个GPU训练,观察到的吞吐量为400 TFLOPS。没有提到,但我假设这些是H100s在fp16下,根据NVIDIA的营销材料,它们的时钟频率为1,979 TFLOPS。但我们都知道他们的小星号(*with sparsity)做了很多工作,实际上你想要将这个数字除以2以获得大约990的真正TFLOPS。为什么稀疏性会算作FLOPS?无论如何,专注点Andrej。所以400/990 ~= 40%的利用率,在那么多GPU上已经相当不错了!要达到这个规模,需要很多非常扎实的工程。

总结

Llama 3是Meta发布的一款非常能干的模型。坚持基本原则,花很多时间在坚实的系统和数据工作上,探索长期训练模型的极限。对于400B模型也感到非常兴奋,这可能是第一个GPT-4级别的开源发布。我认为许多人会要求更多的上下文长度。

希望模型更小

我认为我并不孤单,我也希望有比8B更小的模型,用于教育工作,以及(单元)测试,也许用于嵌入式应用等。理想情况下在大约100M和1B的规模。

在 https://meta.ai 上与它交谈

与 https://github.com/pytorch/torchtune 集成

关于卡神的笔记,有人提问:

精彩的总结。 关于8B模型在比以往多一个数量级的数据上训练,但仍未收敛的这一点……这是否使得Chinchilla模型无效? 或者至少告诉我们,他们极大地低估了最佳的参数到词汇比率?

对此 Karpathy 回复:

不,人们对Chinchilla模型有误解。

版权声明:
作者:clash
链接:https://www.shadowrocket6.top/272.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>