��/��/��ţ

��

16000�ڣ��ȸ跢��ʷ�׸��ڼ�ģ�� Switch Transformer��й��л��ϳ��

��Դ�� - ѧ��ͷ��

�ģ��μѡ��𩡢��ΰ

��գ�Google Brain��о��ԱWilliam Fedus��Barret Zoph��Noam Shazeer��arxiv��ύ��һƪ��ģ��Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity��ϡ�輤��ר��ģ��Switch Transformer��

��ӣ�arxiv.org/abs/2101.03961

�о��Ա��ʾ��1.6��ڲ��ģ��ƺ��Ϊֹ��ģ�ͣ��ٶ��Google֮ǰ��ģ�ͣ�T5-XXL��4��ģ��1750�ڲ��GPT-3��ʮ��

��Ӧ��ʷ�Ϸ��ĵ�һ��ڼ��˹��ģ�͡�

�о��Ա��ָ��ģѵ��ͨ��ǿ��ģ�͵��Ч;��д��ݼ��Ͳ��ļ򵥼ܹ��ԶԶ��Խ��ӵ��㷨��Ŀǰ��Ч�Ĵ��ģѵ��Ҫʹ�ó��ģ�͡�

��Ϊ�Աȣ�William�� Switch Transformer ��ˡ�ϡ�輤���νϡ�裬ָ��Ƕ��ڲ�ͬ��룬ֻ��Ȩ�ص��Ӽ��

��߽��ܣ�Switch Transformer��MoE�Ļ��Ϸ�չ��ģ��MoE��90��״��AIģ�͡�MoE ��ר�ҡ��ר�Ŵ��²�ͬ��ģ�ͷ��һ��ϴ��ģ��У��һ��ſ��硱��ѡ��κθ��Ҫ��ѯ��Щ/��ר�ҡ��

��MoEȡ��һЩ��ɹ��ԡ�ͨ�ųɱ��ѵ��ȶ��谭��㷺��á�

Switch Transformer��ӱ֮��ڣ��Ч��Ϊ��ܾ��˷��㷺��ģ�͵��ѧ��㣩��Ƶ�Ӳ��GPU��Google TPU��о��ԱΪ��ͬ�豸�ϵ�ģ�ͷ��Ψһ��Ȩ�أ��Ȩ�ػ��豸��ӣ��ÿ��豸�Ͻ��һ��ڴ��ͼ��ű��

Switch Transformer ��о��Ա��ʾ��ʹ��ͬ��Դ��ʹԤѵ��ٶ��7��ϡ��֤��ϡ��ģ��ͬ��ڴ��С�ġ��ܵ�ģ�ͣ�ͨ��΢��Щģ��Դ��ģ�ͻ��30��

��һ��William Fedus Ҳ��twitter�ϱ�ʾ��ǵ�ģ�Ͳ��Ӹ�Ч��е�ģ�ͣ�T5-Base��T5-Large��T5-XXL��ʵ��4��7��١��

��һ��У�Switch Transformerģ��100��ֲ�ͬ��֮��ķ��У��о��Ա�۲쵽��ձ�Ľ��׼ģ��ȣ�91��Է��4��ϵ��١�

�о��Ա��Ϊ��δ��Ĺ��У�Switch Transformer��Ӧ�õ��ģ̬��߿�ģ̬��о��С�ģ��ϡ��Կ��Զ�ģ̬ģ��з��ӳ��ơ�

ģ�Ϳ��

ģ�͵��ԭ��ǣ��ڱ��ּ��㿪��Ч�ʵ�ͬʱ��ܵ��ģ�͵Ĳ��ù��ͨ��̶�ÿ��еĸ��ԱȲ�ͬ��ܴ��Ӱ�졣ʵ��У��÷��ͨ��split�㽫��ͬ�Ĳ��䵽��ͬ��豸�ϣ��µ��豸ʱ��Ĳ��ᱻ��룬��ܹ��豸��Է��ͬʱά��ڸ��豸�ϵĴ洢��ͼ��㼣��

1��ϡ��ͨ��

Mixture of Expert Routing��

Shazeer et al.(2017) ��һ�ֻ��ר�ҹ켣��ģ�ͣ��ܸ��ƥ�䵽��ʺϵ�k��ר�ҡ�ģ�͡��Ĳ��W��ÿ��ר�ҡ��Ľ��ռ�ı��أ��ԼӺͣ��õ��

Switch Routing: Rethinking Mixture-of-Experts��

��ڱ��Switch Layer��MoEģ��Ľ��MoEģ�Ͷ�ÿ��Ҫ�ο��2��ϵ�ר��Switch Routing��Բ�ͬ��룬ƥ��ʺϵ�һ��ר�ҡ��ƣ�

1��ͨ��󽵵ͣ��Ϊÿ��Ҫһ��ר�ҡ�ͨ��㣻

2��ÿ��ר�ҡ�ͨ��batchsize��С(��ټ��)��

3��ÿ��ר��ͨ��ʵ�ָ��Ӷȼ�С�ˣ��ר�ҡ��ͨ�ſ��͡�

2��Чϡ��ͨ��

ģ�Ͳ��Mesh-Tensorflow(MTF)��ʵ�֣��ܹ��Ч֧�ֲַ�ʽ��ģ�ͽṹ��Ĳ��ֽ��ص��Switch-Transformer��ʵ�֡�

Distributed Switch Implementation

��Ȼ��ݵ��С��ʵ�־��ģ��Ϊ��ͨ��Ĳ�ͬ��Լ�ѵ��Ԥ��׶εĲ�ͬ��Ƕ�̬�仯�ģ��߲��expert capacity��趨��ͨ��ÿ��expert��token��ļ��㡣��ʽ��£�

��capacity factor��1ʱ��Ҫ��Ļ��û��expert�еõ��Ϻ÷��ݡ��ݱ��ͬһ��expertʱ��ᱻ��ݽ�ֱ��ͨ��в��ӽ��һ�㡣��capacityҲ��ȱ�㣬��ڴ�ͼ��Դ��˷ѡ�

3��Putting all together

��һ��ʱ��Raffel et al. 2019��ġ�Colossal Clean Crawled Corpus��(C4)�Ͻ��С��masked language model task��ģ��Ԥ��ʧ��tokens��drop out�ٷ�֮15��token��ʹ��һ��ǰ׺token��滻mask��С��Ǽ�¼��(Negative Log Perplexity)��жԱȡ�

�ϱ��ʾ��

1��ٶ�-��ָ��ϣ�Switch-Transformer��˾��΢��ĳ��ģ�ͣ��MoE Transformer��޵ļ��빤��ʱ��£�Switch Transformer��õ��ŵĽ��

2��Switch Transformer�и�С�ļ��㼣��computational footprint��

3��ڸ�С��capactiy factor�£�Switch Transformer��Ч��ѡ�

4��ѵ��΢��ļ��

ϡ��ר��ģ��ͨTransformer��ѵ��л�ͨ��Ĳ��ȶ��ģ�ͬʱ��;��ȼ��ᵼ�¶�softmax��е��⣬��о�ѵ��⣬�Լ��Ľ��ķ��

Selective Precision with Large Sparse Model��

��MoE�Ĺ��У��߷��ֵ;��ѵ��ڵ��⣬��ͨ��float32��ѵ��Ǵ˾ٻ��ߵ�ͨ�ſ��Ĺ��֣��ھֲ��߾��ȵ�ѵ��ȫ�ֲ��ã��Ϳ��Դﵽ��ȶ��ԣ��Ч��2��ʾ��

small Parameter Initialization for Stability��

��ʼ��ģ��ѵ��ʮ�ֹؼ��в��Transformer�ĳ�ʼ��ֵ��10��ģ�͵��ȶ��ܣ��ԱȽϽ��£�

Regularizing Large Sparse Model��

��в��õķ��ǳ��Ԥѵ��+΢��ǣ��ݽ��٣��΢��׷��ģ��Ѿ��ǳ��Ǳ��е�ģ��Ÿ��Ĳ��˻ᵼ�¸��صĹ��󡣱��ͨ��΢��У��ÿ��expert�е�dropout��ϡ�

��ܶԱȣ�ϡ�� vs ��

��߷ֱ��Ԥѵ��׶κ��׶ηֱ�� Switch Transformer��Խ��о��

��Ԥѵ��׶Σ�Ϊ��ƿ��⣬��ѡ��˾��г��180B��Ŀ��token�Ĵ��C4��Ͽ⡣

��ͼչʾ��ר��ģ�Ͳ��һ��Թ�ģ��ƣ��ģ�͵�ѵ��ǹ̶��ġ�

��ͼ��ģ�Ͳ��ӣ�ר��ӣ��ܵ��Ͻǵ��½ǣ�ר��ֱ�Ϊ2��4��8��256��14.7B��

��ͼ��ר��ÿ��Ӷȡ��ɫ��Ϊ��ܻ��ߣ�T5-Base��Switch-Baseģ�͵Ĳ��Ч�ʻ�Ƚϸߡ�

��ѵ��ʱ��ȷ��ԴҲȷ��ô��ѵ��һ��ģ�ͣ�Dense Model��ã��ѵ��һ��ϡ��ģ�ͣ�sparse model��ã��ͼ�ش��⣺

��ͼ�ɼ��ͬ��Ӷȵ��£�Switch-Base��ģ�ͣ�ϡ��ģ�ͣ��T5-Baseģ�ͣ��ģ�ͣ�Ҫ�н��߱��١�

ʹ��Switch��׼��ģ�͵�Scaling Transformerģ�͡��ͼ��Switch-Base��T5-Base��T5-Large��ȣ��и��ߵĲ��Ч�ʡ��ͼ��ͬ��Ӷ��£�Switch-Base��T5-Large��ٶ��2.5��

��ϣ��ΪԤѵ��ת��Ϊ��ѧϰ��ߡ�

��ѡ��ģ�ͣ��ֱ�ΪT5-Base��T5-Large��Switch-Base��Switch-Large��FLOPS�ֱ��£�

�ڸ��֪ʶ�ܼ��ϣ��ǿ��Թ۲쵽Switch Transformer��

��Ȼ��һ��ʮ�ڻ��ڲ��Ĵ��ģ��Ǽ�Ϊ��ġ�Ϊ�˻��Ҳ�о��ν��ϡ��ģ��ΪС�ͳ��ģ�͵ķ��

��ϱ��п��Կ��ͨ��ڽ��1.1B��£�ѹ��82%��Ȼ��Ի��37%��棻��£��ģ��ѹ��99%��Ҳ�ܹ��28%��ܸ��ơ�

��߳��101��Ͻ��ж��Ԥѵ��ͼ��Կ��Switch Transformer��ȫ�泬ԽT5-Baseģ�͡�

δ��о��

��У��Լ��δ��ܵ��о��

1��

�ʣ��Ĵ��Ƿ�� Switch Transformer��ã�

��ǵģ��ģ��ѱ�֤��и��õ��ܡ��£�Switch Transformerģ�Ϳ��ʹ��ͬ��Դ��ͬʱ��Ч�ʸ��ߣ��ٶȸ��졣

�ʣ�û�д��ô��ģ�Ͷ��

��ּ��С��ģ��ͬ��ã��ר�ҵ�ģ�;Ϳ��ܡ�

�ʣ��ٶ�-��ϣ�ϡ��ģ�ͻ��ڳ��ģ��

��ǵġ��ڸ��ֲ�ͬ��С��ģ�ͳ߶��£�ϡ��ģ�͵��ٶȺ;��Ⱦ��ڳ��ģ�͡�

�ʣ��޷��һ��ڲ��ģ�ͣ��Сһ��

��ǰ��ᵽ��һ��ԡ��޷��ȫ��֤ģ�͵��ͨ��ϡ��ģ��Ϊ��ģ�ͣ��Դﵽ10��100��ѹ��ʣ��ͬʱר��ģ��Ȼ��Ի�ý��30%��档

�ʣ�ʹ��Switch Transformer��model-parallel�ĳ��ģ�ͣ��б�Ҫ��

�𣺴�ʱ��Ƕȿ��Switch TransformerҪ�Ⱦ��ͬ��ĳ��ģ��Ҫ��Ч��Ȼ��߲��ǻ��⣬��Switch Transformer ��ʹ��ģ�Ͳ��У��ʱ��ᵼ�´�ͳģ�Ͳ��Ա��

�ʣ��Ȼϡ��ģ��ô�ã�Ϊʲô��ϡ��ģ�ͻ�û�б��㷺ʹ��أ�

�𣺳��ʹ��ϡ��ģ�͵Ķ��չ��ģ�͵ĳɹ��ڸ��ˣ��ϡ��ģ��Ҳ�ܵ�ģ�͸��ԡ�ѵ��ѡ�ͨ�ųɱ��š�Switch Transformer�ڻ��Щ��ⷽ��ȡ��˱Ƚϴ�Ľ��

2��ܷ��

��δ��ģ��ģ�ͣ�ѵ��ȶ��һ��ش��ս��ᵽĿǰ�ļ��Switch-Base��Switch-Large��Switch-Cģ�ͻ�û�й۲쵽��ȶ��󣬵��ڸ��ģ�ͻ��᲻��ʹ��򻯺��ʶȵ��ݶȲü��ȷ��ΪԤ��

ѵ��д��һЩ�쳣��һ��˵Ԥѵ��Խ�ã��Ч��Ҳ��Խ�ã��һЩ��Ϸ��֣�1.6T��Switch-C��Ƚ�Сģ�͵Ľ��͡�

Switch-Transformer��о��ģ��ϵ��Ӷ��ָ��ں��ݡ�ģ�͡�ר�Ҳ��е��ϵ�ṹ��ơ�

��һ��Ӧ��㷨ϵ�У�Ŀǰʹ�õ��ͬ��ͬ��ר�ң��δ��֧��칹ר�ҡ�

��FFN��֮��ר�Ҳ㣬��֤�ݱ��ͬ��Ը��ģ��

��Ŀǰ�Ĺ��У��Ҫ��δ��Խ�ģ��ϡ��Ƶ�Ӧ�õ��ģ̬��ͼ�񣩻��ģ̬�С�

��˭��

��ƪ��ĵ��߶��Թȸ��ԣ��ֱ�Ϊ��William Fedus��Barret Zoph��Noam Shazeer��

��һ��Fedus��ѧ��ʿ��ʦ�� Hugo Larochelle��Yoshua Bengio, Google Brainѧ��о�Ա��

Ŀǰ�о��ҪΪ�ල��޼ල��ѧϰ��ǿ��ѧϰ��MIT��ѧ��밵��ʷ��о��˶ʿ��ҵ�ڼ��ݴ�ѧʥ��Ǹ��У��ICLR 2018��NeurIPS 2019��ICML 2020�ȶ��ᷢ��һ��ġ�

��Ϊ��ͬһ�� Barret Zoph ��?Google Brain�Ŷӵĸ߼��о�Ա��

��ǰ��ϼ��ݴ�ѧ��Ѷ��ѧ�о�Ժ(?ISI?)�� Kevin Knight �� Daniel Marcu ��ں��о��ؿ��⡣��CVPR 2018��NeurIPS 2020��ECCV 2020�ȷ��һ��¡�

ֵ��ע��ǣ��֮һNoam Shazeer��ǡ�Attention is all your need��֮һ��

��: 2021-01-132021-01-13 15:25:21
ԭ��https://kuaibao.qq.com/s/20210113A089DK00?refer=cp_1026
��Ѷ��Ѷ�ƿ��Ѷ��ݿ��ƽ̨�ʺţ��ţ��֮һ��Ѷ��ݿ��ƽ̨��Э�顷ת�ط��ݡ�
��Ȩ��ϵ cloudcommunity@tencent.com ɾ��

��Ѷ

ɨ��

��վ�� Ⱥ

��ȡר�� 10Ԫ��ż�ȯ

˽�� ��ɻ�

16000�ڣ��ȸ跢��ʷ�׸��ڼ�ģ�� Switch Transformer��й��л��ϳ��

��Ѷ

ɨ��

��

�

��Դ

��

��Ѷ�ƿ��

��Ų�Ʒ

��Ƽ�

��Ƽ�

16000�ڣ��ȸ跢��������ʷ�׸����ڼ�ģ�� Switch Transformer���й����л���ϳ���

�����Ѷ

����

�

��Դ

����

��Ѷ�ƿ�����

���Ų�Ʒ

�����Ƽ�

�����Ƽ�

16000�ڣ��ȸ跢��ʷ�׸��ڼ�ģ�� Switch Transformer��й��л��ϳ��

��Ѷ

��

��

��Ѷ�ƿ��

��Ų�Ʒ

��Ƽ�

��Ƽ�