“参加主攻方向的有:17个装甲师,2个摩托化师和22个步兵师,近百万士兵,2700辆坦克,其中包括800辆虎式坦克,还有1800架飞机,我的元首。”
“现在我们将要开始的1943年第三次战役,将是决定性的一战!”
这是苏联电影《解放·炮火弧线》中,纳粹德国南方集团军群司令曼斯坦因元帅与希特勒的对白。
1943年初,苏联红军在斯大林格勒战役中对纳粹德国第六军团进行了歼灭性打击,取得了战役决定性胜利后,开始乘胜反攻,摧毁了敌方防御塔并扫荡野区(划掉)并在库尔斯克一带形成了突出部。曼斯坦因打算通过一次南北两翼协调的钳形攻击,合围并歼灭整个突出部内的苏联红军重兵集团,同时缩短德军战线。
由于德国内部组织协调原因,发动进攻的日子一再推迟,而苏军也得以构建100英里以上纵深的工事。最终,由于德军提早暴露了视野,射手被对面打野提前切死,朱可夫下达命令,在7月5日拂晓开始对德军阵地进行炮火反准备,反扭敌手,最终取得了库尔斯克战役的胜利,使德军彻底丧失了战略进攻能力,逐渐地走向灭亡。
在库尔斯克战役中,苏联的大纵深战役理论得到了充分的发挥,而大纵深战役理论的核心就是不同军兵种的协同作战,如步坦协同、空地协同等。通过优秀的协同作战,苏军就可以让劣势的武器装备战胜德军优势的武器装备,T34构成的钢铁洪流淹没德军的虎王坦克编队。
在分布式计算中,异构计算单元的协同技术也是一门飞速发展的科学。在前几期,我们介绍了通过GPU进行分布式大规模计算所依赖的计算、存储、机器内部IO与网络IO基础技术。
为了指导业界更好地基于NVidia引入的这一系列硬件加速特性,实现异构计算单元的良好协同,NVidia决定亲自下场开发一款异构计算服务器,这就是DGX系列。
2016年,NVidia基于P100 GPU开发了初代DGX-1,它拥有8块P100 GPU,CPU为双路Intel 至强E5-2968V4,整机具备960T FLOPS的计算力。目前最新的款型为DGX H100,整机提供16P FLOPS的计算力。
其中,DGX A100是划时代的产品。
首先,它使用了AMD处理器;其次,它对PCI-E总线进行了深度优化设计;另外,它还采用了SMX子卡与主板分离的设计。由于NVidia通过一定形式,对DGX A100的总体设计进行了部分的公开,我们可以从公开资料来剖析DGX A100。
我们先来看看DGX A100的技术规格(Technical Specfications):
CPU: AMD Rome 7742 (64C 2.25GHz) * 2
RAM: 2TB
GPU:NVidia A100 SMX * 8
系统盘:NVMe-SSD 1.92T * 2
数据盘:NVMe-SSD 3.84T * 8
系统网卡:Mellanox CX7 200G(2P)*2
RDMA网卡:Mellanox CX7 200G (2P)* 2
实际上,较大的服务器厂商都具备设计制造这样一台服务器的能力,但如何让如此之多的高性能硬件能够协同工作,并对特定的工作负载进行优化,则是Nvidia在这一产品设计过程中反复考虑的。
上图是NVidia DGX A100的主要部件。
2颗AMD Roma 7742 CPU,每颗有64个AMD Zen2 核心;
8块Nvidia A100 SMX GPU;
6个Nvidia NVSwitch,用于实现8块Nvidia A100 GPU通过NVLink交换;
9+1 张Mellanox ConnectX-6 网卡,同时支持200G IB (EDR)和200G以太网;
8块3.84TB NVMe SSD数据盘;
它们分为两个部分:系统主板和SXM子卡。其中,GPU在SXM子卡上安装,同时SXM子卡还为GPU提供NVLink互联。而其他主要部件均在主板上。
下期开始,我们将逐个剖析DGX A100各个子系统的设计。