针对LLM大模型承载网的AI网络方案

原创

星融元Asterfusion

修改于 2024-03-07 15:30:04

2850

修改于 2024-03-07 15:30:04

人工智能是数字经济的核心驱动力，AI 大模型是人工智能的新引擎。近年来，随着 ChatGPT 等生成式人工智能（AIGC）的突飞猛进，业内领军企业竞相推出万亿、10 万亿参数量级别的大模型，还对底层 GPU 支撑规模提出了更高的要求，达到了万卡级别。然而，如何满足如此庞大规模的训练任务，对网络的规模、性能、可靠性和稳定性等方面提出了前所未有的挑战。

一、AI大模型对智算中心网络的需求

AI 应用计算量呈几何级数增长，算法模型向巨量化发展，当前 AI 超大模型的参数目前已经达到了千亿~万亿的级别。训练这样的模型，毫无疑问需要超高算力。AI 超大模型训练使用GPU训练，互联网络需求在100Gbps~400Gbps，使用RDMA协议来减少传输时延可提升网络吞吐。
在 AI 大模型训练场景下，机内与机外的集合通信操作将产生大量的通信数据量。流水线并行、数据并行及张量并行模式需要不同的通信操作，这对于网络的单端口带宽、节点间的可用链路数量及网络总带宽提出了高要求。
网络抖动会导致集合通信的效率变低，从而影响到 AI 大模型的训练效率。因此在AI 大模型训练任务周期中，维持网络的稳定高效是极其重要的目标，这对网络运维带来了新的挑战。
在数据通信传输过程中产生的网络时延由静态时延和动态时延两个部分构成，其中真正对网络性能影响比较大的是动态时延。动态时延包含了交换机内部排队时延和丢包重传时延，通常由网络拥塞和丢包引起。
由于 AI 大模型训练中集群规模大，这进一步增大了配置的复杂度。在庞大的架构和配置条件下，业务人员能够简化配置部署，有效保障整体业务效率。

AI 大模型对网络的需求主要体现在规模、带宽、时延以及稳定性等几个方面。从当前数据中心网络的实际能力来看，完全匹配AI 大模型的需求在技术上仍然有一定的差距。

二、传统承载网络在AI算力网络的不足

随着大模型训练对于算力需求的不断提升，智算GPU从千卡到万卡，面对万卡以上的建设需求，传统网络解决方案为三级CLOS架构，通常让一台服务器配8块GPU卡，对应的8张万卡连接到单个HB域中的8台Server Leaf上，实现同一卡号GPU在一个Server Leaf上通信。同时为了确保高速转发，每个层级要保证1:1无收敛，以128端口盒式设备为例，Server Leaf和Spine设备的端口分配为上下各64个端口，Super Spine设备的128个端口全部用于下行接入，基于这样的端口规划，整体网络规模有8个HB域，64个POD和64个Fabric，网卡接入规模为32768。

可以直观的看到，整体网络架构极为复杂，不但网络建设成本高，网络转发路径跳数多，并且后续的运维和故障排障极其困难。