��/��/��ţ

��

�ƿ��ƣ��õ�GPU΢�� LLM��һ�ݡ��ݶ��ۻ��㷨�̳�

��Դ�� - ��֮��

ѡ��lightning.ai

��֮�ı��

�༭��

��Դ�õ��£��ÿһλ��ߵı��޿Ρ�

�ԴӴ�ģ�ͱ��֮��GPU �ͳ��˽��ε��ʡ��ܶ��ҵ�Ĵ��һ��㣬��˵��˿��ˡ��û��ʲô��Ը��Ч��ѵ��ģ�ͣ�

��һƪ��ͣ�Sebastian Raschka ��ˡ��ݶ��ۻ��ķ��ܹ�� GPU �ڴ��ʱʹ�ø�� batch size ѵ��ģ�ͣ��ƿ�Ӳ��ơ�

�ڴ�֮ǰ��Sebastian Raschka Ҳ��һƪ��ö� GPU ѵ��Լ��ٴ��ģ��΢��£��ģ�ͻ� tensor sharding �Ȼ��ƣ��Щ��ƽ�ģ��Ȩ�غͼ��ֲ��ڲ�ͬ��豸�ϣ��Խ�� GPU ��ڴ��ơ�

΢�� BLOOM ģ�ͽ��з��

��Ȥ��ý��Ԥѵ��Ĵ��ģ��ı��ô��ǿ��ܻ�ѡ��ʹ�� GPT-3 �Ŀ�Դ��Ʒ BLOOM ģ�ͣ��ر��ǡ��С� 5.6 �ڸ�� BLOOM �汾 �� Ӧ�ÿ��Ժ��ͳ GPU �� RAM �У�Google Colab ��Ѱ汾ӵ�� 15 Gb RAM �� GPU)��

һ��ʼ��ͺܿ��⣺�ڴ��ѵ��΢��ڼ�Ѹ��ӡ�ѵ��ģ�͵�Ψһ��ʹ��СΪ 1��batch size=1��

ʹ��СΪ 1��batch size=1��ΪĿ��΢�� BLOOM �Ĵ��ʾ��Ҳ�� GitHub ��Ŀҳ��룺

https://github.com/rasbt/gradient-accumulation-blog/blob/main/src/1_batchsize-1.py

��Խ��˴��ֱ�Ӹ��Ʋ�ճ�� Google Colab �У��뽫�渽�� local_dataset_utilities.py �ļ��Ϸŵ��Ӹ��ļ��һЩ��ݼ�ʵ�ó��ͬһ�ļ��С�

��ʹ�� Lightning Fabric��Ϊ��ÿ��ڲ�ͬӲ��д˴��ʱ��ظı� GPU ��Ͷ� GPU ѵ��ԡ��ͨ��׼�� flag ��û�Ͼ��ѵ��mixed-precision training��£��Ͼ��ѵ��Խ�ѵ��ٶ��ڴ��󽵵�Լ 25%��

��չʾ��Ҫ��붼��if __name__ == "__main__" �� context��ִ�еģ��ʹֻʹ�õ�� GPU��Ҳ�Ƽ�ʹ�� PyTorch ��л��ִ�ж� GPU ѵ��󣬰�� if __name__ == "__main__" �е��벿�ָ��ݼ��أ�

# 1 ��ݼ�

# 2 token ��ֵ��

# 3 ��ݼ��

�� 4 ��ǳ�ʼ��ģ�ͣ�Initializing the Model��У�Ȼ��ڵ� 5 �� ΢��Finetuning��У�� train ��ǿ�ʼ��Ȥ�ĵط�� train (...) ��У�ʵ��˱�׼�� PyTorch ѭ��ѵ��ѭ��ע�Ͱ汾��ʾ��

��СΪ 1��Batch size=1��ݶȸ��½��÷ǳ��Һ��ѣ��ѵ��ģ��ʱ��ڲ��ѵ��ʧ��Ĳ��Լ��ģ�

��û�ж�� GPU ��Ƭ��tensor sharding��Щʲô��ѵ��и��С��batch size��ģ��أ�

��һ�ֽ��ݶ��ۻ��ͨ��޸�ǰ��ᵽ��ѵ��ѭ��

ʲô��ݶȻ��ۣ�

�ݶ��ۻ��һ��ѵ��ڼ��С��batch size��ķ��õ� GPU �ڴ治��Сʱ��ǳ��á��ݶ��ۻ��У��ݶ��Խ�С��μ��ģ��ڶ�ε��ۻ��ͨ��ͻ�ƽ��ÿһ��֮��ģ��Ȩ�ء�һ��ۻ��ݶȴﵽĿ�꡸��⡹��С��ģ��Ȩ�ؾͻ�ʹ��ۻ��ݶȽ��и��¡�

�ο��µ� PyTorch ѵ��ѭ��

�� accumulation_steps ��Ϊ 2��ô zero_grad () �� optimizer.step () ��ֻ��ÿ��һ��һ�Ρ��ˣ�ʹ�� accumulation_steps=2 ��޸ĺ��ѵ��ѭ��뽫��С��batch size��ӱ��ͬ��Ч��

��磬��ʹ�� 256 ��С��ֻ�ܽ� 64 ��С�� GPU �ڴ��У��Ϳ��ԶԴ�СΪ 64 ��ĸ��ִ��ݶ��ۻ��ĸ��κ󣬽��൱�ڵ��СΪ 256 ��ۻ��ݶȡ��ܹ��Ч��ģ��С�� GPU �ڴ��粻ͬ�豸��Ƭ��

��Ȼ�ݶ��ۻ��԰��ѵ��и��С��ģ�ͣ��ܼ��ʵ��ϣ��ʱ�ᵼ��ѵ��һЩ��ΪȨ�ظ��µ�ִ��Ƶ�ʽϵ͡��ˣ��ȴ�ܰ��ǽ��⣬��С�ǳ�Сʱ��µĸ��Ƶ��һ��ҡ�

��磬��Ĵ��룬��СΪ 1��Ҫ 16 ��ۻ��裨accumulation steps��ģ��С�� 16��

��£�

��Ľ��ʧ�Ĳ��ǰС�ˡ��⣬��Լ�� 10%��ֻ��ѵ��һ�Σ��ÿ��ѵ��ֻ��һ�Ρ�ѵ�� multiple epochs ��ģ�Ϳ��Խ�һ��Ԥ��ܡ�

��ܻ��ע�⵽��δ��ִ��ٶ�Ҳ��֮ǰʹ�õ��СΪ 1 �Ĵ��졣��ʹ��ݶ��ۻ��С��ӵ� 8��Ȼ��ͬ��ǰ�򴫲��forward passes��Ȼ��ÿ�˸� epoch ֻ��һ��ģ�ͣ��˷��򴫲��backward passes��٣��ɸ��һ�� epoch��ѵ��ڵ��

��

�ݶ��ۻ��һ��ִ��Ȩ�ظ��֮ǰͨ��ۻ��С��ݶ��ģ��С�ļ��ü��ڿ��ڴ��ڴ��п��С��С��ṩ��

��ǣ��˼��һ��С�ĳ��ζ�ſ��ڴ��С��£��ݶ��ۻ��ܲ��Ǳ��ġ��ʵ�ϣ��и��С��ܸ��Ч��Ϊ��Ĳ��ܼ��ѵ��ģ��Ȩ�ظ��´��

��֮��ݶ��ۻ��һ��ʵ�õļ��ڽ��С��С��Ϣ��ݶȸ��׼ȷ�Ե�Ӱ�졣��һ�ּ򵥶��Ч�ļ��ƹ�Ӳ��ơ�

PS��еø��

û��⡣��ʹ�� PyTorch 2.0 �� torch.compile ʹ��еø��졣ֻ��Ҫ��һЩ model = torch.compile��ͼ��ʾ��

GitHub ��ṩ��Ľű��

��£�torch.compile �ڲ�Ӱ�콨ģ��ܵ��ּ��ʮ��ӵ�ѵ��ʱ�䣺

��ע�⣬��֮ǰ��׼ȷ��ߺܿ��ԡ�

��: 2023-05-132023-05-13 13:09:00
ԭ��https://kuaibao.qq.com/s/20230513A03LK100?refer=cp_1026
��Ѷ��Ѷ�ƿ��Ѷ��ݿ��ƽ̨�ʺţ��ţ��֮һ��Ѷ��ݿ��ƽ̨��Э�顷ת�ط��ݡ�
��Ȩ��ϵ cloudcommunity@tencent.com ɾ��

��Ѷ

ɨ��

��վ�� Ⱥ

��ȡר�� 10Ԫ��ż�ȯ

˽�� ��ɻ�

�ƿ��ƣ��õ�GPU΢�� LLM��һ�ݡ��ݶ��ۻ��㷨�̳�

��Ѷ

ɨ��

��

�

��Դ

��

��Ѷ�ƿ��

��Ų�Ʒ

��Ƽ�

��Ƽ�

�ƿ��������ƣ�����õ�GPU΢�� LLM������һ�ݡ��ݶ��ۻ����㷨�̳�

�����Ѷ

����

�

��Դ

����

��Ѷ�ƿ�����

���Ų�Ʒ

�����Ƽ�

�����Ƽ�

�ƿ��ƣ��õ�GPU΢�� LLM��һ�ݡ��ݶ��ۻ��㷨�̳�

��Ѷ

��

��

��Ѷ�ƿ��

��Ų�Ʒ

��Ƽ�

��Ƽ�