��/��/��ţ

��

MegaScale�ֽ��򿨼�Ⱥ���ʵ��ģ��

��Դ�� - wisemodel��Դ��

ʼ��AI wisemodel.cn��Դ��

MegaScale��ֽ��һ��Ч�ȶ��ϵͳ��򿨼��Ͻ��д��ģ��ģ�͵�ѵ��ͨ��һϵ��Ż��ʩ��ģ�ͺ��Ż��ơ��ͨ��ص��Ż��ȣ��ѵ��Ч�ʺ��ȶ��ԣ��߱��ļ�غ��ģ��FLOPs��ʣ��ﵽ��55.2%��Megatron-LM��1.34��Model FLOPs Utilization��ģ��ʣ� ��ָģ��һ��ǰ��ĵľ��ı�ֵ��

��ս��

��ģ�ͣ�LLMs��AI��Ҫ��ӣ��ڶ��չ�ֳ��޴�Ǳ��

ѵ��LLMs��Ҫ�޴�ļ��Դ��ģ�ͺ�ѵ��ݵĹ�ģ�Ǿ��ģ��Ĺؼ��ء�

��LLMѵ��չ��GPU��ǰ��δ�е��ս��ѵ��Ч�ʺ��ȶ��⡣

MegaScale��ֽ��ʹ��10000�鿨�Դ��һ�״��ģģ��ѵ��ϵͳ��ģ�ͷֲ�ʽ��ͨ�ţ��Լ��صȹ��ߡ��ϵͳ��ɶ��10��ӾͿ��ҵ��15��ӾͿ��ʵ��һ��MegaScale��һ��Ӵ��ϵͳ��̣��Ҫ��ÿ��ģ��г��;��ƲŻ��ϵͳ��е�ǿ��һ�仰��Ը��ǣ��ܲ��еĵط��~ ��־��Ҳ��Ƚ��ƣ�֮��һ��ѵ��ˡ�

MegaScaleϵͳ��ƣ�

MegaScale��һ��ר��ΪLLMѵ��Ƶ�ϵͳ��ȫջ��ͬ��㷨��ϵͳ��

ϵͳ��ģ�Ϳ��Ż��ơ��ͨ��ص��Ż��ݹܵ��ܵ��š�

ѵ��Ч��Ż��

LLMs��ѵ��ص��Ӵ��ģ�ͼܹ��ʹ��ģ��ݼ��Ҫ��в��ֲ�ѵ��̡�

��ݲ��С��ˮ�߲��С��к��в��ѵ��LLMs�Ĳ��в��ԡ�

��ܵ��ţ�

��˶��Ƶ��ˣ��ECMP��ϣ��ͻ��

ʵ��˻��Swift��DCQCN�Ļ��ӵ��㷨��

��NCCL��ش��ʱ��ʵ�ֿ��ٻָ��

��ȶ��ԣ�

��һϵ��Ϲ��ߣ��ڼ��ϵͳ��¼��ʵ��Ŀɹ۲��ԡ�

ʵ��һ��׳��ѵ��ܣ��Զ��϶�λ�ͻָ��

��Ϣ��ʵʱ�쳣��ƣ��Լ��ټ��ͻָ��̡�

MegaScale �Ż��

�±ߵ�MegaScale ��ȡ��һϵ��Ż��ԣ��漰��㷨��ͨ�ţ��ָ��ȶ��档

�㷨�Ż�

1.Parallel transformer block

��ַ��attention block �� MLP block �ļ��Բ��ִ�У��Ӷ��ټ��ʱ�䡣��ǰ��о��޸Ĳ��ή�;��ǧ�ڲ��ģ�͵��ͼ��ʾ��

2.Sliding window attention (SWA)

��ע��ͨ��е�ÿ��Χʹ�ù̶��С�Ĵ��ڣ��㸴�Ӷȴ�O(s��s)��͵�O(s��w)��wԶС��s��Ӷ��ڱ��׼ȷ�Ե�ͬʱ��ѵ��Ч�ʡ�

3. LAMB optimizer

LAMB�Ż��ʹ��MegaScale�ܹ��ڲ��ʧ׼ȷ�Ե�ǰ��½�batch size��4��Ч��pipeline bubbles��˴��ģѵ��Ч�ʺ��ȶ��ԡ�

��ͨ��Ż�

1. Overlapping in data parallelism

MegaScale��3D��ͨ��model chunks��ص��ȼ�ͨ�Ų��ԣ��Ż��˴��úͼ��Ч�ʡ�

2.Overlapping in pipeline parallelism

MegaScaleͨ��interleaved 1F1B��ȷ��ʵ��ȴ�׶η��ͺͽ��ղ��ص�ִ�У��ȶ��׶�ʵ��첽�ķ��ͺͽ��ղ��Ӷ��ѵ��Ч�ʺ�ͨ��ܡ�

3.Overlapping in tensor/sequence parallelism

MegaScale��/��в��ͨ��ں�all-gather��reduce-scatter��FFN·��Ĳ��Բ㣬��ˮ�ߴ��GEMM�ںˣ��Ч��ͨ�ſ��Ż��GPU�ڴ�ʹ�á�

Efficient Operators

1.attention part��FlashAttention-2

2.LayerNorm �� GeLU��Щ kernel fuse ��һ��Ǽ�� kernel ��Ŀ��Ż��ڴ��ģʽ��Ӷ�ʵ�ָ��õ��ܡ�

3.��Ż��ڴ��ģʽ��Ӷ�ʵ�ָ��õ��ܡ�

Data Pipeline

1.MegaScaleͨ��첽��Ԥ��GPUͬ��ݶ�ʱ��ǰ��ʼ��һ��ݵ�Ԥ��Ч��Ԥ��ʱ�䣬��ѵ��еĵȴ��ͬʱ��ϵͳͨ��ݼ��tree-based��ʹ��ݼ��ݶ��빲��ڴ湩��GPUʹ�ã��ݴ��Ч�ʲ��˴��I/O��

Collective Communication Group Initialization

MegaScaleͨ��Ż�NCCLͨ��ʼ��̣��漰2048��NVIDIA Ampere GPU�ĳ�ʼ��ʱ��1047��5�룬��ʹ��ڳ��10,000��GPU�ϵĳ�ʼ��ʱ��30��ڡ�

Network Performance Tuning

�ֽ��û��Broadcom Tomahawk 4оƬ�Ľ��CLOS��˽ṹ��Ϊ��10,000��GPU�ṩ�ߴ�25.6Tbps��ܴ��ƽ��·��ȷ��˸ߴ��͵��ӳٵĽڵ��ͨ�š�

��ֻ��

��ѵ��Ⱥ��ģ�� GPU��Ӳ��ϼ��ǲ��ɱ��ġ�Ϊ��ʵ��Զ��ʶ��Ϳ��ٻָ�� LLM ѵ��һ��ǿ��ѵ��ܣ�ʵ��С��Ϊ��Ԥ�Ͷ��ڽ��е�ѵ��񼸺�û��Ӱ��ݴ��

��ϻ��

��Լ��У�ִ��ʱ��׼ȷ��֮��Ȩ�⡣�ӳ��ϳ��ʱ��ܻ��Ч��ѵ��ʱ��Ӱ�죬��ʿ��ܻᵼ�¶�ʵ��Ļ��в��Ҫ��ų��ֽڲ��һ��ϲ��ԣ��ܹ��Ч��ʵ��ѵ��Ĺ㷺Ӳ��ϡ�

��ģ��ѵ��

��ڴ�ģ��ѵ��Ĳ��֣�� MegaScale �Ĳ��Ӫ��顣ΪLLM��ģ�ͣ�ѵ��ר�õ� A I��Ⱥ��2023��9�£�� LLM ѵ�� AI ��Ⱥ��10,000��NVIDIA Ampere GPU��ֽڻ��ڻ��µ� NVIDIA Hopper GPU ��ģ��Ⱥ��ΪNVIDIA��ڼӿ��ȡ�

ѵ��

175B ģ�͵�ǿ��չѵ��ܡ��ʹ�� 3072 �� 12288 ��GPU��ѵ��ʱ�� batch size ��Ϊ 6144�� 256 �� 1024 ��GPU�� GPU �ڴ��ƣ��ǽ��С��С�� 768��ڴ˱��ѵ�� 300B tokens ��ѵ��ʱ�䡣MFU ��е��ֱ�ʾ��Megatron-LM �� MegaScale ��ٱȡ�

��Megtron��һ�£��MagaScale��ܵ��㣬�ܽ��token��ˣ�ѵ��ʱ��ˣ�MFU��ģ��ʣ��ˡ�

Megatron-LM �� MegaScale �� 530B ģ��ϵ��չѵ��ܣ�� batch size �� GPU ��ɱ��ؽ��š�

��Megtron��ʧ��һ��batch��Ϊ4��ʧҲ�Ǽ��һ��κδ��10��ӾͿ��ҵ��15��ӾͿ��ʵ��һ��

��ʵ��

MegaScaleͨ��һϵ��Ż��㷨�Ľ��ͨ��ص��Ч��ˮ��Ż��LAMB�Ż��Ӧ�ã��256��GPU��ѵ��175Bģ��ʱ��MFU��17.6%��Խ��ԭʼ��Megatron-LM��׼��

ʵ��ۣ�

MegaScale��ʹ�� 12,288 ��GPUѵ��175B��LLMģ��ʱ��ʵ��55.2%��ģ��FLOPs��ʣ�MFU��Megatron-LM��1.34��

ʵ��MegaScale��Ż��ѵ��ܷ��ǳ��Ч��ͨ��㷨��ͨ��Ż��Ч��Լ��Ż��ʩ��Ӧ�ã�MegaScale�ܹ��MFU��ѵ��̡�

�ܽᣬ��о�� MegaScale ��ơ�ʵ�ֺͲ��MegaScale ��һ��ڳ��10,000 ��GPU�Ĺ�ģ�Ͻ�� LLM��Large Language Model��ѵ��ϵͳ��MegaScale��㷨��ϵͳ��Эͬ��Ż�ѵ��Ч�ʣ�ǿ��ѵ��Ҫ�ݴ��ʵ��һ��Ƶ�³��ѵ��Զ��λ��޸��ϡ��ṩ��һ��ȫ��ļ�ع��ߣ��ڶ�ϵͳ��¼��۲죬��ʶ��쳣�ĸ��ԭ��

https://arxiv.org/abs/2402.15627

�ο��

https://zhuanlan.zhihu.com/p/684712727

https://zhuanlan.zhihu.com/p/684619370

�༭��

wisemodel��

ϵͳ��

��: 29��ǰ2024-04-09 19:18:51
ԭ��https://page.om.qq.com/page/OMQQ7kDjOZdnyGdpN5VcEikw0
��Ѷ��Ѷ�ƿ��Ѷ��ݿ��ƽ̨�ʺţ��ţ��֮һ��Ѷ��ݿ��ƽ̨��Э�顷ת�ط��ݡ�
��Ȩ��ϵ cloudcommunity@tencent.com ɾ��

��Ѷ

��ԽӢΰ��ֽ��MegaScale��ʵ�ִ��ģGPU�ĸ�Ч��ã�
2024-05-09
��ģ��ѵ��ν��GPU�򿨻��ս��
2024-05-09
32��176%ѵ��٣��Դ��ģ��ѵ��Megatron-LLaMA��
2024-05-09
��켯��ϰ��ȿƼ��Դ��ģ��ѵ��Megatron-LLaMA
2024-05-09
΢��DeepSpeed��Դ�⣬֧��1000�ڸ��ģ�͵�ѵ��
2024-05-09
΢��Ӣΰ�﷢��5300��NLPģ�͡��-ͼ�顱��4480��A100
2024-05-09
10��΢��Դʷ��NLGģ�ͣ��ѵ��1000�ڲ��ģ��
2024-05-09
��ѧϰϵͳ�Ĺ��ʵ��
2024-05-09
ChatGPTģ�Ͳ��1750�ڣ��÷�֤��֤��
2024-05-09
AIGC ��ģ��ѵ��л��뼼��ȫ��λ��
2024-05-09
΢��T-NLG��һ��170�ڲ��ģ��
2024-05-09
��TensorFlow��PaddleFluid��ʹ�ö��GPU��ѵ��
2024-05-09
΢��DeepSpeed��ø��ٵ�GPUѵ��AIģ��
2024-05-09
��ChatGPT��ģ�ͣ��Ӵ�ֻ��һ��GPU��ٰٱ��ķ��
2024-05-09
΢��DNN��ѵ��·��PipeDream��ȴ�ͳ��ı�
2024-05-09
��Դ��廪��ԴFastMoE��׸�֧�� PyTorch ��ܵ� MoE ϵͳ��AIģ�ͻ�ʯ
2024-05-09
650�ڲ��8��GPU��ȫ��΢��ŶӰѴ�ģ��ż��
2024-05-09
��16-bit �� 1.58-bit ��ģ��ڴ�Ч�ʺ�׼ȷ��֮��Ȩ��
2024-05-09
Sora ��ѧ��
2024-05-09
Sora��ѧ��
2024-05-09

ɨ��

��վ�� Ⱥ

��ȡר�� 10Ԫ��ż�ȯ

˽�� ��ɻ�

MegaScale�ֽ��򿨼�Ⱥ���ʵ��ģ��

��Ѷ

ɨ��

��

�

��Դ

��

��Ѷ�ƿ��

��Ų�Ʒ

��Ƽ�

��Ƽ�

MegaScale�ֽ��򿨼�Ⱥ���ʵ��������ģ������������

�����Ѷ

����

�

��Դ

����

��Ѷ�ƿ�����

���Ų�Ʒ

�����Ƽ�

�����Ƽ�

MegaScale�ֽ��򿨼�Ⱥ���ʵ��ģ��

��Ѷ

��

��

��Ѷ�ƿ��

��Ų�Ʒ

��Ƽ�

��Ƽ�