Google发布Griffin架构超越Transformer
Google 最近发布的 Griffin 架构性能优于 transformers。🔥

📌 Hawk(本文提出的新架构之一)在下游任务中的表现超过了 Mamba,而 Griffin 在训练所用的 token 数量少于六倍的情况下,其性能与 Llama-2 相当。
📌 Griffin 可以在训练期间未见过的显著更长序列上进行推理。
📌 在多种尺寸下,Griffin 在 MMLU 得分以及许多基准测试的平均得分上都优于 transformers 基准分数,并在受控测试中表现出色。该架构还在推理长上下文时提供了更快的推理速度和更低的内存使用效率优势。
Huggingface 今天发布的 2B 版本:
📌 仅使用 300B token 训练的原型就能实现这一目标,前景相当不错。
Transformers 的主要问题是由于全局注意力的二次复杂性,它们难以高效扩展到长序列。此外,随着序列长度的增加,Key-Value (KV) 缓存的线性增长使得 Transformers 在推理时变慢。尽管多查询注意力 (MQA) 通过将缓存大小减少一个常数因子部分缓解了这个问题,但缓存仍然随着序列长度线性增长。
📌 递归语言模型是一个有吸引力的替代方案,因为它们将整个序列压缩成一个固定大小的隐藏状态,并迭代更新。然而,要取代 Transformers,新的 RNN 模型不仅需要在规模上展示出相当的性能,还需要实现类似的硬件效率。

📌 在本文中,他们提出了 RG-LRU 层,一种新颖的门控线性递归层,并围绕它设计了一个新的递归块来取代 MQA。他们使用这个递归块构建了两个新模型:Hawk,一个交替使用 MLP 和递归块的模型,以及 Griffin,一个交替使用 MLP、递归块和局部注意力的混合模型。
📌 他们展示了:

Hawk 和 Griffin 在持出损失与训练 FLOPs 之间表现出幂律缩放关系,参数量达到并超过 7B(图 1(a)),这一现象之前也在 Transformers 中观察到。
版权声明:
作者:clash
链接:https://www.shadowrocket6.top/207.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。


共有 0 条评论