又一位英伟达\＂杀手\＂亮相：检修及推感性能是H100数倍，成本仅1/10

发布日期：2024-08-29 12:58 点击次数：126

$又一位英伟达\＂杀手\＂亮相：检修及推感性能是H100数倍，成本仅1/10$

8月27日音问，在近日召开的Hot Chips 2024大会上，好意思国AI芯片初创公司SambaNova初次矜重先容了其新推出的群众首款面向万亿参数范围的东谈主工智能（AI）模子的AI芯片系统——基于可重构数据流单位 (RDU) 的 AI 芯片 SN40L。

据先容，基于SambaNova 的 SN40L 的8芯片系统，不错为 5 万亿参数模子提供相沿，单个系统节点上的序列长度可达 256k+。对比英伟的H100芯片，SN40L不仅推感性能达到了H100的3.1倍，在检修性能也达到了H100的2倍，总领有成本更是仅有其1/10。

据先容，SambaNova SN40L基于台积电5nm制程工艺，领有1020亿个晶体管（H100为800亿个晶体管），1040个自研的“Cerulean”架构的RDU操办中枢，全体的算力达638TFLOPS（BF16），诚然这个算力不算太高，然而要津在于SN40L还领有三层数据流存储器，包括：520MB的片上SRAM内存（远高于此前Groq推出的堪称推理速率是英伟达GPU的10倍、功耗仅1/10的LPU所集成的230MB SRAM），集成的64GB的HBM内存，1.5TB的外部大容量内存。这也使得其能够相沿万亿参数范围的大模子的检修和推理。

SambaNova在推出基于8个SN40L芯片系统的同期，还推出了16个芯片的系统，将可得回8GB片内SRAM、1TB HBM和24TB外部DDR内存，使得片上SRAM和集成的HBM内存之间的带宽高达25.5TB/s，HBM和外部DDR内存之间的带宽可达1600GB/s。高带宽将会带来赫然的低延时的上风，比如驱动Llama 3.1 8B模子，延时低于0.01s。

下图是SambaNova SN40L的里面结构，包括：操办单位（PCU）、存储单位（PMU）、网状开关（S）、片外存储器和IO（AGCU）。

SN40L 里面的操办单位（PCU）的里面架构，它具有一系列静态阶段，而不是传统的获取/解码等实行单位。PCU不错算作流媒体单位（从左到右的数据）驱动，蓝色是交叉车谈减少树。在矩阵操办操作中，它不错用作松开阵列。相沿BF16、FP32、INT32、INT8等数据类型。

下图是SN40L 的高等存储单位框架图。这些是可编程责罚的暂存区，而不是传统的缓存。

SN40L 的网状相聚领有三种物理相聚，包括矢量相聚、标量相聚和限度相聚。

AGCU单位用于拜谒片外存储器(HBM和DDR )，而PCU用于拜谒片内SRAM暂存区。

下图是SN40L 的顶层互联接构：

SN40L 的要津中枢在于其可重构数据流架构，可重构数据流架构使其能够通过编译器映射优化各个神经相聚层和内核的资源分派。

底下是一个例子，讲明Softmax是怎么被编译器拿获，然后映射到硬件的。

不错看到，将它映射到大说话模子（LLM）和生成式AI的Transformer模子，底下是映射。在解码器里面，有很多不同的操作。

下图是解码器放大图。每个方框内齐是一个操作符。同期，时时不错驱动多个操作符，并把数据保存在芯片上以便重用。

以下是SambaNova对运算符如安在GPU上交融的揣度，不外他们也指出这可能不准确。

在RDU中，统共这个词解码器是一个内核调用。编译器矜重这种映射。

解码器算作RDU上的单个内核。

回到Transformer的结构，下图展示了解码器的不同功能。不错看到，每个函数调用齐有启动支拨。

不是32个调用，而是写成一个调用。

换句话说，这意味着调用支拨减少了，因为只须一个调用，而不是多个调用。终局，加多了芯片对数据作念灵验职责的技艺。

SambaNova 首席实行官兼独创东谈主 Rodrigo Liang 示意：“借助数据流，你不错不停矫正这些模子的映射，因为它是竣工可重构的。因此，跟着软件的矫正，你得回的收益不是增量的，而是特殊可不雅的，不管是在效果方面如故在性能方面。”

底下是SambaNova的16个SN40L芯片系统在Llama3.1 405B/70B/7B上的弘扬，在Llama 3.1 7B模子下，以竣工的16bit精度驱动，其每秒的Token生成数果然高达1100个。这比此前Groq推出的基于LPU（堪称推理速率是英伟达GPU的10倍，功耗仅1/10）的行状器系统在Llama 3 8B上的最快基准测试终局每秒生成800个Token还要快。即使是在Llama3.1 405B模子上，以竣工的16bit精度驱动，16个SN40L芯片的系统每秒Token生成数也能够高达114个。而在Llama 3.1 7B模子下，其每秒的Token生成数更是高达1100个。由于内存容量终局，与其最接近的竞争敌手需要数百块芯片来驱动每个模子的单个实例，因为 GPU 提供的总详细量和内存容量相对较低。

SN40L在Llama 3.1 70B模子上进行批量推理和详细量缩放弘扬，跟着批量大小的变化，详细量接近理思范围。

据SambaNova 先容，基于8个SN40L芯片的门径AI行状器系统在驱动80亿参数的AI大模子时，速率达到了基于8张英伟达H100加快卡的DGX H100系统的3.7倍（每生成20个Token所浮滥的技艺），而统共这个词系统所占用的空间也只须DGX H100的1/19，模子切换技艺也仅有DGX H100系统的1/15。

在芯片推感性能方面，SN40L达到了英伟达H100的3.1倍；在检修性能方面，SN40L也达到了英伟达H100的2倍。

追思来说，SambaNova 不错在8个SN40L芯片的系统上驱动数百个大模子（在16个SN40L芯片的系统上不错同期驱动多达 1000 个 Llama 3 7B大模子），同期还能够保握很快的反馈速率，领有竣工精度。更为要津的是，其总领有成本比竞争敌手低 10 倍（诚然未明确是哪款竞品芯片，但从前边的对比来看，应该说的是H100）。

“SN40L的速率展现了Dataflow的魔力，它加快了 SN40L 芯片上的数据出动，最大限制地减少了蔓延，并最大限制地培植了处理详细量。它比 GPU 更胜一筹——终局即是即时 AI，”SambaNova Systems 集聚独创东谈主、斯坦福大学有名操办机科学家 Kunle Olukotun 示意。

值得一提的是，在基于SN40L芯片的系统之上，SambaNova 还构建了我方的软件堆栈，其中包括本年2月28日初次发布的领有1万亿参数的Samba-1 模子，也称为 Samba-CoE（行家组合），其使得企业能够组合使用多个模子，也不错单独使用，并左证公司数据对模子进行微合并检修。

诚然，SN40L比较当今的一些AI芯片来说，领有着显赫的上风，比如其可重构的数据流架构，不错退换硬件来知足种种职责负载条目，使得其不错很好的处理图像、视频及文本等不同的数据类型，合适多模态AI运用。然而，联系于英伟达的GPU不错纯竟然处理多样模子来说，SN40L在纯真性上如故要稍逊一筹，干系模子必须要经由有利的退换才智在其上头驱动。况且，英伟达雄壮的CUDA生态亦然一大挑战。

不外，在AI模子参数越来越大，所需的芯片数目和资金成本越来越高的布景之下，SN40L在性能和成本上的上风，以及关于万亿参数大模子的相沿，因此也有着与英伟达告成竞争的契机。简略正因为如斯，SambaNova也得回了老本的喜爱，当今也曾累计得回了逾越10亿好意思元的融资。

裁剪：芯智讯-浪客剑

上一篇：王泉泽: 以前天才少年, 也用施展也许为我方谋得了一隅之地。

下一篇：群众最薄搭钮问世：2.5毫米，有望将折叠手机厚度卷至 9 毫米以下