Sohu有史以来最快的AI芯片每秒50万Tokens摩尔定律不存在了

刚刚!Etched 发布了史上最快的AI 芯片!

Sohu是目前最快的AI芯片,每秒能处理超过50万个tokens,运行Llama 70B模型。它可以替代160个H100 GPU,使得许多在GPU上无法实现的产品成为可能。

温馨提示:不是国内的那个搜狐!

专为Transformer模型设计

Sohu是首个专为Transformer模型设计的专用芯片(ASIC)。这种专用性带来了极大的性能提升:Sohu不能运行CNNs、LSTMs、SSMs或其他AI模型。

如今,所有主要的AI产品(如ChatGPT、Claude、Gemini、Sora)都依赖于Transformers。未来几年内,所有大型AI模型将运行在定制芯片上。

Sohu有史以来最快的AI芯片每秒50万Tokens摩尔定律不存在了-2

专用芯片的不可避免性

Sohu比NVIDIA下一代的Blackwell (B200) GPU快10倍以上,成本也更低。一台Sohu服务器每秒能运行超过50万个Llama 70B tokens,性能是H100服务器(每秒23000 tokens)的20倍,是B200服务器(约每秒45000 tokens)的10倍。

以上基准测试是在FP8精度下、无稀疏性、8倍模型并行、2048输入/128输出长度的条件下进行的。8个H100的数字来自TensorRT-LLM 0.10.08(最新版本),8个B200的数字为估算值。这是NVIDIA和AMD使用的相同基准。

Sohu有史以来最快的AI芯片每秒50万Tokens摩尔定律不存在了-3

GPU不再变得更好,只是变得更大。在过去四年里,计算密度(TFLOPS/mm²)仅提高了约15%。下一代GPU(如NVIDIA B200、AMD MI300X、Intel Gaudi 3、AWS Trainium2等)现在将两个芯片作为一张卡来“翻倍”性能。

随着摩尔定律的减缓,提高性能的唯一途径是专用化。

规模经济的改变

今天,AI模型的训练成本超过10亿美元,用于推理的成本将超过100亿美元。在这种规模下,哪怕1%的改进也能证明5000万到1亿美元的定制芯片项目是合理的。

ASICs比GPU快10到100倍。当2014年比特币矿机进入市场时,使用GPU挖矿变得不再经济。对于AI来说,同样的事情正在发生。

Transformers的巨大护城河

我们相信硬件彩票:获胜的架构是那些在硬件上运行最快和最便宜的。Transformers赢得了彩票:AI实验室已经花费数亿美元优化Transformers的内核。初创公司使用专门的Transformer软件库,如TRT-LLM和vLLM,这些库基于Transformers构建了许多功能,如推测性解码和树搜索。

随着模型从10亿美元的训练费用增长到100亿美元,测试新架构的风险也急剧上升。相比重新测试扩展定律,努力使Transformers更高效更有价值。

一旦Sohu(以及其他ASICs)进入市场,我们将达到不可逆转的点。Transformer替代者需要在GPU上比Transformers在Sohu上运行得更快。如果发生这种情况,我们也会为其构建ASIC!

网友评论精选

andrew gao(@itsandrewgao) 表示惊叹:

500,000 tokens/秒简直疯狂。你可以在两秒内写完《圣经》。或者一年写15万亿个tokens。期待@Etched能实现这个目标。

Laurence Bremner(@LaurenceBrem) 对比了生成速度:

等等,让我们来看看这个。500,000 tokens/秒,大约相当于384,000个单词。一个人平均每天说18,000个单词。所以,Sohu在一秒钟内生成的内容相当于21个人一天的讲话量!真不可思议,而且这仅仅是个开始。

xlr8harder(@xlr8harder) 提问:

你们有没有正在开发动态加载适配器的解决方案?单一基础模型的用途有限。

Matt(@MatthewRideout) 简洁表达:

Groq,安息吧。

dillon (🐮,🌝)(@dillchen) 提出疑问:

看起来很酷,但温度如何?

Ivan Starinin(@IvanStarinin) 问道:

它能运行一个微调过的70b Llama吗?

Omar McAdam 🍕 — oss/acc(@McPizza0) 幽默提问:

能运行《毁灭战士》吗?

Alloy🐍🍀(@alloy3301) 简短评论:

给我来一个。

das filter(@Das_Filter) 感叹道:

可能超出我的想象,但太牛了。

Kenny Le(@kennyle31) 指出:

这超越了摩尔定律。

White Pill(@Wh1tePill) 展望:

硬件时代来临。如果这些基准测试能在芯片量产并广泛采用后被复制,这将是一次巨大的飞跃。WGMI 🫡

nisten(@nisten) 提问:

有这个东西的真实照片吗?

Tom K(@korzonekX) 问道:

我怎么投资你们公司?

Oli(@Oli82817545) 问道:

有什么办法可以测试一下这个芯片?

Vincent(@vvvincent_c) 提问:

大家,这是真的吗?

test bot(@testbot830622) 持怀疑态度:

永远不会发布,永远不会使用。无聊。

roman(@romanugarte_) 表达期待:

一支伟大团队的伟大消息。迫不及待地想看到接下来会发生什么。

kavin(@itskavins) 表示支持:

专用芯片万岁!硬件加速加油。

Free Debreuil(@freedebreuil) 提问:

它能与Nvidia GPU通过互连工作吗?

Colin(@zolinthecow) 感叹:

每秒50万个tokens。

Dillon Erb(@dlnrb) 表达祝贺:

太棒了,恭喜!期待看到Sohu带来的未来!

附Sohu 原文:

Etched 正在押注AI的未来

Sohu有史以来最快的AI芯片每秒50万Tokens摩尔定律不存在了-4

Image 1

2022年,我们预见Transformer将主导世界,并对此进行了投资。

过去两年里,我们一直在开发Sohu,这是全球首款专为Transformer设计的专用芯片(ASIC),它是ChatGPT中的“T”。

通过将Transformer架构固化在我们的芯片中,我们无法运行大多数传统的AI模型:如用于Instagram广告的DLRM,类似AlphaFold 2的蛋白质折叠模型,或者像Stable Diffusion 2这样的旧图像模型。我们也无法运行CNN、RNN或LSTM。

但对于Transformer而言,Sohu是有史以来最快的芯片,优势显著。

Sohu在Llama 70B的吞吐量中每秒处理超过500,000个tokens,使您能够构建在GPU上不可能实现的产品。 Sohu比NVIDIA下一代Blackwell (GB200) GPU快一个数量级且更便宜。

今天,所有最先进的AI模型都是Transformer:ChatGPT、Sora、Gemini、Stable Diffusion 3等。如果Transformer被SSM、RWKV或任何新架构取代,我们的芯片将毫无用处。

但如果我们的判断正确,Sohu将改变世界。这就是我们赌这一把的原因。

在五年内,AI模型在大多数标准测试中变得比人类更聪明。

如何实现的?因为Meta使用了比OpenAI训练GPT-2(2019年SoTA)多_50,000倍_的计算资源来训练Llama 400B(2024年SoTA,比大多数人类更聪明)。

通过提供更多的计算资源和更好的数据,AI模型变得更聪明。规模是几十年来唯一持续有效的策略,每个大型AI公司(Google、OpenAI / Microsoft、Anthropic / Amazon等)在未来几年内都将在这一领域投资超过_$100_ _亿_美元。我们正生活在有史以来最大规模的基础设施建设中。

Sohu有史以来最快的AI芯片每秒50万Tokens摩尔定律不存在了-5

Image 2

OpenAI预测了GPT-4的性能,并预计这些预测规律将适用于GPT-5+ 3 [1] 。

“我认为[我们]可以扩展到1000亿美元的范围,……我们将在几年内达到这一目标”**- Dario Amodei, Anthropic CEO** **1** [2]

“规模非常重要。当我们在太阳周围建立一个戴森球时,我们可以讨论是否停止扩展,但在此之前不能”- Sam Altman, OpenAI CEO **2** [3]

将规模扩展1000倍将非常昂贵。下一代数据中心的成本将超过一个小国的GDP。以目前的速度,我们的硬件、电网和钱包无法跟上。

圣克拉拉的秘密在于GPU并没有变得更好,只是变得更大了。 芯片每单位面积的计算能力(TFLOPS)在过去四年里几乎没有变化。

Sohu有史以来最快的AI芯片每秒50万Tokens摩尔定律不存在了-6

Image 3

NVIDIA的B200、AMD的MI300、Intel的Gaudi 3和Amazon的Trainium2将两个芯片算作一个卡,以“翻倍”性能。

Sohu有史以来最快的AI芯片每秒50万Tokens摩尔定律不存在了-7

从2022年到2025年,AI芯片并没有真正变得更好,而是变得更大了。 2022-2025年所有GPU性能的提升都采用了这一技巧,除了Etched。

随着摩尔定律的放缓,提高性能的唯一方法就是专用化。‍

专用芯片的不可避免性

在Transformer主导世界之前,许多公司开发了灵活的AI芯片和GPU以处理各种架构。例如:

没有人曾经建造过特定算法的AI芯片(ASIC)。芯片项目的成本为5000万到1亿美元,并且需要数年时间才能投入生产。当我们开始时,市场尚未形成。

突然之间,情况发生了变化:

前所未有的需求: 在ChatGPT出现之前,Transformer推理市场大约为5000万美元,现在已达数十亿。所有大科技公司都使用Transformer模型(OpenAI、Google、Amazon、Microsoft、Facebook等)。

架构的趋同: AI模型曾经变化很大。但自从GPT-2以来,最先进的模型架构几乎没有变化!OpenAI的GPT家族、Google的PaLM、Facebook的LLaMa,甚至特斯拉的FSD都是Transformer。

当模型的训练成本达到10亿美元以上,推理成本达到100亿美元以上时,专用芯片是不可避免的。在这种规模下,即使提高1%的性能也足以证明5000万到1亿美元的定制芯片项目是合理的。

实际上,ASIC比GPU快几个数量级。当比特币矿机在2014年进入市场时,使用GPU挖矿变得不再划算,甚至直接淘汰GPU。

在涉及数十亿美元的情况下,AI也会发生同样的事情。

Sohu有史以来最快的AI芯片每秒50万Tokens摩尔定律不存在了-8

Image 5

Sohu有史以来最快的AI芯片每秒50万Tokens摩尔定律不存在了-9

Image 6

Transformer惊人地相似:像SwiGLU激活和RoPE编码等调整无处不在:LLM、嵌入模型、图像修复和视频生成。

尽管从GPT-2到Llama-3的最先进(SoTA)模型相隔五年,但它们的架构几乎相同。唯一的主要区别是规模。

我们相信硬件彩票:获胜的模型是那些可以在硬件上以最快、最便宜的方式运行的模型。Transformer足够强大、实用且有利可图,能够在替代品准备好之前主导每个主要的AI计算市场:

Transformer支持每一个大型AI产品:从代理到搜索再到聊天。AI实验室已花费数亿美元在R&D上,以优化GPU用于Transformer。当前和下一代最先进的模型都是Transformer。

随着模型规模在未来几年内从10亿美元扩展到100亿美元,测试新架构的风险急剧上升。与其重新测试扩展规律和性能,不如花时间在Transformer上构建功能,例如多token预测。

今天的软件堆栈是为Transformer优化的。每个流行的库(TensorRT-LLM、vLLM、Huggingface TGI等)都有专门的内核用于在GPU上运行Transformer模型。许多构建在Transformer之上的功能在替代方案中不容易支持(例如推测解码、树搜索)。

明天的硬件堆栈将为Transformer优化。NVIDIA的GB200s对Transformer有特别支持(TransformerEngine)。Sohu等ASIC进入市场标志着无回头路。Transformer杀手将需要在GPU上运行比Transformer在Sohu上运行更快的速度。如果发生这种情况,我们也会为此建造ASIC!

Sohu是世界上首款Transformer ASIC。 一个8xSohu服务器可以取代160个H100 GPU。

Sohu有史以来最快的AI芯片每秒50万Tokens摩尔定律不存在了-10

Image 7

通过专用化,Sohu获得了前所未有的性能。一个8xSohu服务器每秒可以处理超过500,000个Llama 70B tokens。

基准测试基于Llama-3 70B在FP8精度下进行:无稀疏性,8x模型并行,

2048输入/128输出长度。

8xH100的计算基于TensorRT-LLM 0.10.08(最新版本),8xGB200的数字是估计值。

Sohu只支持Transformer推理,无论是Llama还是Stable Diffusion 3。Sohu支持今天所有的模型(Google、Meta、Microsoft、OpenAI、Anthropic等)并能处理未来模型的调整。

因为Sohu只能运行一种算法,所以绝大多数控制流逻辑可以被删除,从而允许其拥有更多的数学单元。结果是,Sohu的FLOPS利用率超过90%(相比之下,GPU约为30% 7 [4] 使用TRT-LLM)。

NVIDIA H200在没有稀疏性的情况下具有989 TFLOPS的FP16/BF16计算能力 9 [5] 。这是最先进的(甚至超过了Google的新Trillium芯片),而2025年推出的GB200仅增加了25%的计算能力(每片1,250 TFLOPS 10 [6] )。

由于大部分GPU的面积用于可编程性,通过专用于Transformer,我们可以在芯片上容纳更多计算资源。您可以从基本原理上证明这一点:

构建单个FP16/BF16/FP8乘法加法电路(所有矩阵数学的基本单元)需要10,000个晶体管。H100 SXM有528个张量核心,每个核心有 4 × 8 × 16 个FMA电路 11 [7] 。乘法告诉我们H100有27亿个晶体管用于张量核心。

但一个H100有800亿个晶体管 12 [8] !这意味着H100 GPU上只有3.3%的晶体管用于矩阵乘法!

这是NVIDIA和其他灵活AI芯片的一个有意设计决策。如果您想支持各种模型(CNN、LSTM、SSM等),您不能做得比这更好。

通过仅运行Transformer,我们可以在芯片上容纳更多FLOPS,而无需使用更低的精度或稀疏性。‍

对于现代模型如Llama-3,不会!

让我们使用NVIDIA和AMD的标准基准测试 13 [9] :2048输入tokens和128输出tokens。大多数AI产品的提示比完成长得多(即使是新的Claude聊天中,系统提示也有1000多个tokens)。

在GPU和Sohu上,推理以 批次 运行。每个批次一次加载所有的模型权重,并在批次中的每个token上重复使用。一般来说,LLM输入是计算密集型的,而LLM输出是内存密集型的。当我们将输入和输出tokens与连续批处理结合起来时,工作负载变得_非常_计算密集型 14 [10] 。

下面是一个LLM的连续批处理示例。这里我们运行的序列有四个输入tokens和四个输出tokens;每种颜色代表不同的序列。

Sohu有史以来最快的AI芯片每秒50万Tokens摩尔定律不存在了-11

Image 8

我们可以扩展相同的技巧来运行Llama-3-70B,每批2048个输入tokens和128个输出tokens。让每批包含一个序列的2048个输入tokens,以及127个不同序列的127个输出tokens。

如果我们这样做,每个批次将需要大约 (2048 + 127) × 70B params × 2 bytes per param = 304 TFLOPs ,同时只需要加载 70B params × 2 bytes per param = 140 GB 的模型权重和大约 127 × 64 × 8 × 128 × (2048 + 127) × 2 × 2 = 72GB 的KV缓存权重。这比内存带宽需要的计算多得多:一个H200需要 6.8 PFLOPS 的计算能力才能达到其内存带宽的极限。而这还是在100%利用率的情况下——如果利用率是30%,您需要多3倍。

由于Sohu有如此多的计算能力且利用率非常高,我们可以在不受内存带宽限制的情况下运行_巨大的_吞吐量。

在GPU和TPU上,软件是个噩梦。处理任意的CUDA和PyTorch代码需要一个极其复杂的编译器。第三方AI芯片(AMD、Intel、AWS等)共同在软件上花费了数十亿美元,但收效甚微。

但由于Sohu只运行Transformer,我们只需要为Transformer编写软件!

大多数运行开源或内部模型的公司使用的是Transformer特定的推理库,如TensorRT-LLM、vLLM或HuggingFace的TGI。这些框架非常严格——虽然您可以调整模型超参数,但不是真的支持更改基础模型代码。但这没问题——因为所有Transformer模型都如此相似(即使是文本/图像/视频模型),调整超参数已经足够。

虽然这支持了95%的AI公司,但最大的AI实验室会定制。他们有工程师团队手工调整GPU内核以挤出更多的利用率,逆向工程例如哪个寄存器到每个张量核心的延迟最低。

对于Etched,您不需要再进行逆向工程——我们的软件,从驱动程序到内核到服务堆栈,都将是开源的。如果您想实现一个定制的Transformer层,您的内核专家可以自由地进行。‍

Etched将率先行动

如果现在这个赌注看起来很疯狂,想象一下在2022年做这个决定。当我们开始时,ChatGPT还不存在!图像和视频生成模型是U-Nets,自驾车由CNN驱动,Transformer架构远非普及。

幸运的是,形势转向了我们。每个领域的顶级模型——从语言到视觉——现在都是Transformer。这种趋同不仅验证了我们的赌注,还使Sohu成为本十年最重要的硬件项目。

我们正走在历史上最快的芯片发布轨道上:

顶尖的AI研究人员和硬件工程师离开了每个主要的AI芯片项目,加入了我们

我们直接与TSMC在其4nm工艺上合作。我们已从顶级供应商处获得足够的HBM和服务器供应,以快速提高我们第一年的生产

我们的早期客户已经预订了数千万美元的硬件‍

如果AI模型一夜之间变得快20倍且便宜20倍,会发生什么?

今天,Gemini需要超过60秒才能回答关于视频的问题 16 [11] 。编码代理的成本超过了软件工程师,并且需要数小时才能完成任务。视频模型每秒生成一帧 17 [12] ,甚至OpenAI在ChatGPT注册用户达到1000万时也用完了GPU容量,仅占世界的0.15%。

我们没有在解决这个问题的轨道上——即使我们确实继续扩大GPU,每两年扩大2.5倍,也需要 十年时间才能实现实时视频生成 。

但有了Sohu,这将是即时的。当实时视频、通话、代理和搜索最终_开始工作_时,会发生什么?

不久,您就可以发现。请在 这里 [13] 申请Sohu开发者云的早期访问权限。

如果您对解决计算瓶颈充满热情,我们也希望与您见面。这是我们时代最重要的问题。请在 **这里 [14] 申请我们开放的职位。

参考资料

https://arxiv.org/abs/2303.08774

https://github.com/NVIDIA/TensorRT-LLM/blob/main/docs/source/performance/perf-overview.md

https://github.com/NVIDIA/TensorRT-LLM/blob/main/docs/source/performance/perf-overview.md

https://resources.nvidia.com/en-us-tensor-core/nvidia-tensor-core-gpu-datasheet

NVIDIA GB200 NVL72 Delivers Trillion-Parameter LLM Training and Real-Time Inference

https://resources.nvidia.com/en-us-tensor-core

NVIDIA Hopper Architecture In-Depth

Achieving Top Inference Performance with the NVIDIA H100 Tensor Core GPU and NVIDIA TensorRT-LLM

https://www.anyscale.com/blog/continuous-batching-llm-inference

https://en.wikipedia.org/wiki/Poisson_distribution

https://lumalabs.ai/dream-machine

相关链接

[1]

3: https://www.etched.com/announcing-etched#footnotes

[2]

1 : https://www.etched.com/announcing-etched#footnotes

[3]

2 : https://www.etched.com/announcing-etched#footnotes

[4]

7: https://etched-dev.webflow.io/announcing-etched#footnotes

[5]

9: https://www.etched.com/announcing-etched#footnotes

[6]

10: https://www.etched.com/announcing-etched#footnotes

[7]

11: https://www.etched.com/announcing-etched#footnotes

[8]

12 : https://www.etched.com/announcing-etched#footnotes

[9]

13: https://www.etched.com/announcing-etched#footnotes

[10]

14: https://www.etched.com/announcing-etched#footnotes

[11]

16: https://www.etched.com/announcing-etched#footnotes

[12]

版权声明:
作者:clash
链接:https://www.shadowrocket6.top/167.html
来源:Shadowrocket官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>