��/��/��ţ

��

��ģ��ѵ��ϵͳǳ̸��ϵͳ�ܹ��Ż�

��Դ�� - ��CAP��

��ģ��ѵ��ϵͳǳ̸��

ϵͳ�ܹ��Ż�

�� I ��

�Ż�� I ��

��磨DNN��Զ��ʻ��ǻ�ҽ�ơ��ڶ��ȡ��˾޴�ĳɹ��Ѿ��㷺��Ӧ��ǵ��ճ��С��㷨�Ƕ��DNN�ܱȴ�ͳ�Ļ��ѧϰģ��ڸ��ĳ��ṩ��ߵ�׼ȷ�ʣ��ɹ�Դ�ڴ��ģ�͵ķ�չ��

����DNN��ѵ��У��Ҫͨ��ĺ��ռ��Ѱ��һ��Ų��Ӷ��ܹ��õ��ѵ��ݡ��ڴ��ʱ��DNN��ǰ��δ�еĴ��ģѵ��ݼ��ϣ��ھ�ģ�͵ı��磬��ImageNet-1K��ݼ��ϣ�DNN��120��ͼƬ��ѵ��һ��߾��ȵķ��ģ�͡�

��ģ����봫ͳ�Ļ��ѧϰģ��ȣ�DNNΪ�˻�ȡ�˸�ǿ��ͨ��и��ģ�Ͳ��͸��ߵļ��磬2012��ľ��8��񾭵�ԪAlexnet��н�61M�Ĳ��ImageNet-1K��ݼ��ϻ�ȡ39%��Top-1��ʣ�һ�ε��Ҫ14�ڴθ��㣨1.4GFLOP��ļ��2016��ľ��152��񾭵�Ԫ��Resnet-152Ҳ��60M��ҵĲ��ܹ��ImageNet-1K��ݼ��ϻ�ȡ21.4%��Top-1��ʣ��һ�ε��Ҫ�ߴ�22.6GFLOP�ļ��Alexnet��16.1��

��ģ��ѱ�֤��ʮ��Ч��ͬʱҲ��˶��ľ޴��ͨ��DNNѵ��ܼ��Ϊ��ѵ�� * ģ��һ�ε��ļ�� * Epoch��ע��1��Epoch=��ѵ��һ�Σ��һ�� CPU ��ImageNet-1K��ݼ��ѵ��ResNet-50��Ҫ��Ѽ�ʮ�ꣻ��NVIDIA M40 GPU ��ѵ��Ҫ��14�� [1]��DNNģ�͵�ÿ��ѵ��Ҫ��ܵ�ʱ�䣬��ô��ģ��ѵ��Ź��̽��赲DNN�ķ�չ��ء��ϵͳ�Ƕ��ִ��еļ��ͨ��Ǳ�֤DNN�ɹ��Ҫ��ء�

�ֲ�ʽDNNѵ��ϵͳ�ܹ��

��Դ��ƣ��ߵ��㵥Ԫ��GPU��Դ��ݺʹ�ģ�ʹ��Ҫ��ô��Ҫʹ�ö��㵥Ԫ��չ��ģ��DNNѵ����ParameterServer, PS��AllReduce���õ��ֲ�ʽDNNѵ��ܹ���

PS�ܹ���PS�ܹ��У��ݺͼ��㸺�ض��ֲ��ڹ��ڵ㣨worker node��ϣ��ڵ㣨server node��ʽ��Ĳ��Ϣ��ģ��ѵ��ÿ�ε��У��ڵ��Ҫ�ӷ��ڵ��ȡ��Pull��µĲ��Ϣ��ڷ��ѵ��ϼ��ݶ��Ϣ��ͣ�Push��ڵ㡣��ڵ��㼯��ڵ��ݶ��Ϣ��¶�Ӧ��ģ�Ͳ��Pull-Push��PS�ܹ��Ļ��ͨ�ŷ�ʽ��һ��PS�ܹ��и�ǿ��ݴ��ԣ�һ��ڵ�ı��ᵼ��ѵ��ֹ��

P2P�ܹ���P2P�ܹ��У��еĽڵ��Ϊ��ڵ㡣��ģ��ѵ��ÿ�ε��У�ÿ��ڵ��ѵ��ϼ��ݶ��Ϣ��AllReduceͨ�ŷ�ʽ��۲��ַ��ڵ��ݶ��Ϣ��Էֲ�ʽDNNѵ��AllReduceʵ��У��Ring AllReduceͨ��㷨��NCCL2��Ϊ��Ч��ͨ�Ÿ��ز��GPU��Ӷ��ӡ�

��ַ��ĽǶ��ֲ�ʽDNNѵ��ϵͳ��Բ��ݲ��к�ģ�Ͳ��еĹ��ʽ��PS�ܹ��P2P�ܹ��֧��ģ�͵Ĳ��й��ʽ��

�� ݲ����ݲ��ʹ�ֲ�ʽDNNѵ��ϵͳ֧�Ŵ��ݵ�ѵ��ѵ��ᱻ��䵽��ڵ��У�ÿ��ڵ��ȫ��ģ�Ͳ��Ŀ��ڵ��ѵ��У�ÿ��ڵ��÷��䵽��ѵ��ÿ��ģ�Ͳ��Ӧ��ݶȡ�

�� ģ�Ͳ����ģ�Ͳ��ʹ�ֲ�ʽDNNѵ��ϵͳ֧�Ŵ�ģ�͵�ѵ��DNNģ�ͻᱻ�и��䵽��ڵ��С��ÿ��ڵ��һ��ģ�Ͳ��Ŀ��ڵ��ѵ��У�ÿ��ڵ��ѵ��Է��䵽��ģ�Ͳ��Ӧ��ݶȡ�

�ֲ�ʽDNNѵ��ϵͳ��Ż��

�ֲ�ʽDNNѵ��ϵͳ��Ż��Ҫ��ٱȺ��Ч��ǡ�

�ֲ�ʽDNNѵ��ϵͳ�Ķ��Ż���ֲ�ʽѵ��Ҫƿ��ں��չ��Ͷ��֮��ͨ�ſ��

�� ϵͳ��չ����NVIDIA GPUѵ��Imagenet��ݼ�Ϊ��ÿ�ε��У�ÿ��GPU��Ҫ��M��ͼƬ��N��GPUʱ��ѵ��batch sizeΪN * M��Ӳ��ṹԭ��һ��Χ�ڣ�MԽ��GPU�ľ��߸��ߵ��Ч�ʡ��AlexnetΪ��ڵ��ѵ��У�Mͨ��Ϊ256��ڶ��࿨ѵ��У�Mͨ��С��64��M=64��N=2014��ѵ��batch size�ߴ�64K��Ȼ��ʹ�ô�ͳ��ݶ��½��㷨��SGD��batch size��޴��ģ�;��ʧ��Ϊ��֤ģ�;��Ⱥ͵��ĸ߹��Ч�ʣ��ֲ�ʽDNNѵ��ϵͳ��ֻ��M��ֵ��ϵͳ��չ��Ϊ�˽��һ��⣬ҵ��Ŀǰ�ķ��ǲ��ò㼶��Ӧ��Ӧ��ţ�LARS��㷨��DNNģ�͵�ÿһ�㣬��̬��ѧϰ�ʡ�Ŀǰ��ȵķֲ�ʽDNNϵͳ��֧��ʹ��2048��GPU��64K Imagenet��ѵ��

�� ϵͳͨ�ſ����ͷֲ�ʽDNNѵ��ϵͳ��ͨ�ſ��ϵͳ�ļ��ٱȣ��㵥Ԫ��˷ѡ��磬��һ��û��ͨ��Ż��ķֲ�ʽѵ��ϵͳ�У�16 GPUs��ļ��ٱ��ﲻ��8��Ҳ��˵��ϵͳ�м��㵥Ԫ��ڵȴ�ͨ��ɣ�50%�ļ��ò��á�Ϊ�˽��ϵͳ��ͨ�ſ��ֲ�ʽDNNͨ��RDMA��ʽ��ʹ�û��TCP/IP��ͨ�ŷ�ʽ��ȣ� RDMA�ӿڴ��Ϣ��2��10��⣬NTU CAP��з��ParameterFlow (PF) ͨ�ż��ͨ��ϡ��ͨ�ŷ�ʽ��Դ��Ƚ��ͨ�ſ��Ŀǰ��ȵķֲ�ʽDNNϵͳ��1024��ﵽ920�ļ��ٱȡ�

�ֲ�ʽDNNѵ��ϵͳ�ĵ��Ż����㵥Ԫ��Ч�ʶԷֲ�ʽDNNҲʮ��Ҫ��ȵ�DNNѵ��ϵͳͨ��ͨ��ں��ںϺ��ڴ��Ż��ķ��㵥Ԫ��Ч�ʡ�

�� ں��ںϡ���DNN��Resnet-50��ͨ��ǳ��ĵ�С��Ĳ��GPU��Ӳ��ƺ�GPU Kernel��ٿ��С��ܳ��Ӳ��еļ��Դ��һ��ķ��ں��ںϣ�Kernel Fusion��DNNѵ��е��õ��Ķ��Kernel��ں�Ϊһ��е��á��NVIDIA��RNN�⺯��ѭ��磨RNN��ʵ�ֳ�һ��Kernel��Ӷ��˷ǳ��õ��ܡ��ȱ��ֹ��ںϺõ�Kernel��ԡ�Ŀǰ��ѧ��͹�ҵ�翪ʼ�о�ʹ�ñ��ķ��ںϵ��ں˴��롣

�� ڴ��Ż���豸�ڴ��С��ƿ��Դ��DNNģ�͹�ģ��磬��12G�Դ��K80 GPU��ʹ��Caffeѵ��Resnet-50��bath size��Ϊ32��Ϊ�˽��һ��⣬ĳЩDNNѵ��ϵͳ��ڴ渴�úͼ��㻻�ڴ�ķ��ڴ��ڴ渴��ָѵ��еĶ��ͬ�׶ε��ʱ��ݹ��ͬһ�ڴ�ռ䡣��㻻�ڴ��ָѵ��в��һЩ��ʱ��ݣ��Ҫʱ��ͨ��ټ��ó��

�� 뾫��ѵ����µ�NVIDIA GPU ��V100��TensorCore֧��F16��㡣F16��ĺô��һ��Լ��ټ��ԭ��32λ�ĵ�Ԫ��FP16��ʱ��Ͽ��Դﵽ��ٶȣ��һ��ģ��ѵ��Ҫ�Ŀռ��٣��ʹGPU�и��Ŀռ仺��ѵ��ݡ��ս��α�֤ѵ��ģ�͵ľ��ȡ�

ΪӦ�Դ��ģ�͵ķ�չ��ģ��ѵ��ϵͳ�ķ�չ��δ��ļ��˷ֲ�ʽDNNѵ��ϵͳ��Ż��ϣ��ܸ��Ǵ��

[1] You, Yang, Zhao Zhang, Cho-Jui Hsieh, James Demmel, and Kurt Keutzer. "ImageNet training in minutes." In Proceedings of the 47th International Conference on Parallel Processing, p. 1. ACM, 2018.

��İ�Ȩ��С�

�¼��CAP��

��: 2018-10-022018-10-02 08:56:13
ԭ��https://kuaibao.qq.com/s/20181002G0BNP700?refer=cp_1026
��Ѷ��Ѷ�ƿ��Ѷ��ݿ��ƽ̨�ʺţ��ţ��֮һ��Ѷ��ݿ��ƽ̨��Э�顷ת�ط��ݡ�
��Ȩ��ϵ cloudcommunity@tencent.com ɾ��

��Ѷ

ɨ��

��վ�� Ⱥ

��ȡר�� 10Ԫ��ż�ȯ

˽�� ��ɻ�

��ģ��ѵ��ϵͳǳ̸��ϵͳ�ܹ��Ż�

��Ѷ

ɨ��

��

�

��Դ

��

��Ѷ�ƿ��

��Ų�Ʒ

��Ƽ�

��Ƽ�

���ģ���������ѵ��ϵͳǳ̸��ϵͳ�ܹ��������Ż�

�����Ѷ

����

�

��Դ

����

��Ѷ�ƿ�����

���Ų�Ʒ

�����Ƽ�

�����Ƽ�

��ģ��ѵ��ϵͳǳ̸��ϵͳ�ܹ��Ż�

��Ѷ

��

��

��Ѷ�ƿ��

��Ų�Ʒ

��Ƽ�

��Ƽ�