��/��/��ţ

��

�ȸ��Ƴ��ֲ�ʽǿ��ѧϰ��SEED RL��ٶȱ�IMPALA��80��

��Դ��infoqLasse Espeholt

��Go��Dota2�Ȳ��Ϸ�Ļ𱬴Ӳ��淴ӳ��ǿ��ѧϰ��RL��ڹ�ȥ��ȡ�õĳɾ͡�ģ�ͻ��ͨ��Ϸ�У�̽��ѧϰ��ͬʱ��ض��Ŀ��Ż��Ȼ��Ŀǰ��Ҫ�ɹ�ѧϰ�ǳ��򵥵��Ϸ��Ҫ��ǿ��ѧϰѵ��Ҳ�ǳ��Ӵ��ʹ��о��Ͳ�Ʒ��ĵ��Ȱ��ֺ�ʱ��ؽ��һ��ͬʱ��Щ��ġ��ǿ��ѧϰ��ܡ�

��ġ�SEED RL��ͨ��ټ��ʵ�ָ�Ч��չ��Deep-RL��У��һ��ǿ��ѧϰ��Թ�ģ��ǧ̨��ϣ��ÿ��֡��ٶȽ��ѵ��˼��Ч�ʡ��ͨ��һ��µļܹ�ʵ�ֵģ��ͨ��ʽģ��ͨ�Ų��ģ��ü��GPU��TPU��֤��SEED RL��е�ǿ��ѧϰ��׼��ϵ��ܣ��ȸ��о��Arcadeѧϰ��DeepMind Lab��ʹ�ø��ģ�Ϳ��Ч�ʡ��Щ��Ѿ��Github�Ͽ�Դ��ṩ��ʹ��GPU�ڹȸ��е�ʾ��

��Ŀ��ַ��https://github.com/google-research/seed_rl

��ǰ�ķֲ�ʽ�ܹ�

IMPALA��һ��ֲ�ʽǿ��ѧϰ��ʹ��ר��ֵ��ļ��񣨷ǣ��ලѧϰһ��ٶȺ�Ч�ʷ��涼��ǿ��ѧϰ��ļܹ�ͨ��Ϊ�ж��ߣ�actors��ѧϰ�ߣ�learners��ж��ͨ��CPU��У��ڻ��ִ�ж��Լ��ģ��Ԥ��һ��Ĺ��̡��ж��߻ᾭ��ģ�͵Ĳ��ռ��㹻��Ĺ۲��ݺ󣬽��۲�Ͷ��Ĺ켣��͸�ѧϰ�ߣ�ѧϰ��ٶ�ģ�ͽ��Ż��ܹ��У�ѧϰ��ʹ��̨��ķֲ�ʽ��GPU��ѵ��ģ�͡�

��RL��IMPALA�ļܹ�ʾ��ж��Ͻ��У�ͨ��ʹ�õ�Ч��CPU��º��ģ�Ͳ��Ƶ��ش�ѧϰ�߷��͸��ж��ߣ��˴��

ǿ��ѧϰ��IMPALA��ļܹ��¼��ȱ�㣺

��ʹ�ü��ȣ�ʹ��CPU��Ч�ʺ��ٶ�Ҫ�͵ö࣬��ģ�ͱ�󡢱�࣬��⡣
��ж��ߺ�ѧϰ��֮�䷢�Ͳ��м�ģ��״̬��Ĵ��ܳ�Ϊƿ��
��һ̨��ϴ��ȫ��ͬ��񣨼��Ⱦ��̫��ŵ��û��Դ��

SEED RL�ܹ�

SEED RL�ܹ��Ϊ�˽��Щȱ�ݶ��Ƶġ�ʹ��ַ��ѧϰ��ר�ŵ�Ӳ��GPU��TPU��ϼ��ɣ�ͨ��ڱ��ر��ģ�Ͳ��״̬��ʵ��٣��ݴ��ƿ��Ȼ��ÿ��ж��۲��͸�ѧϰ�ߣ��ǵ��gRPC��ܺ��첽��RPC�ǳ��Ч��⣬�ӳٺܵ͡��ʹ��һ̨��Ͽ��ʵ��ÿ��һ��β�ѯ��ѧϰ�߿��չ��ǧ��ںˣ��磬��Cloud TPUs�Ͽ��չ��2048��ж��ߵ��չ��ǧ̨��ѧϰ�ߣ��ʹ��ÿ��֡��ٶ�ѵ��Ϊ��ܡ�SEED RL��TensorFlow 2 API��ǵ�ʵ��У�TPUs��SEED RL��

Ϊ��ʹ�ÿ�ܳɹ��У��Ƚ��㷨��ɵ�SEED RL�С��һ��V-trace��һ�ֻ��ڲ��ݶȵķ��IMPALA��롣ͨ��ڲ��ݶȵķ��Ԥ��һ��ķֲ��п��ԶԶ��г��Ȼ��ж��ߺ�ѧϰ��SEED RL��첽ִ�еģ��ж��ߵĲ��΢��ѧϰ�ߵĲ��ԣ��߲��ԣ�off-policy��ͨ��Ļ��ڲ��ݶȵķ��߲��ԣ�on-policy��ζ�ţ��ж��ߺ�ѧϰ��ͬ�Ĳ��ԣ��߲��л��Ժ��ֵ��⡣V-trace��һ��߲��Է��ˣ��첽SEED RL�ܹ��п��Թ��úܺá�

�ڶ��㷨��R2D2��һ��Q-learning��ʹ�õݹ�ֲ�ʽ�ز��Ԥ��Ķ��δ��ֵ��ѡ��ַ��ʹ��Q-learning�㷨��Դ��ģ��У�ͬʱ��Ȼ��ʹ�õݹ��磬��Ը��һ��¼��й�ȥ֡��ϢԤ��δ��ֵ��

SEED RL�ܹ��IMPALA�ܹ��ͬ��ж��ֻ�ڻ��ִ�ж��ѧϰ��ڼ��ʹ��Զ��ж��ߵ��ݼ��ִ�С�

ʵ��

SEED RL�ڳ��õ�Arcadeѧϰ��DeepMind Lab��Ĺȸ��о��򻷾��Ͻ��˻�׼��ԡ�

��DeepMind Lab��IMPALA��SEED RL��õ�ÿ��֡��Ƚϡ�SEED RLʹ��4160��CPU�ﵽÿ��2.4M֡��ٶ��ͬ��IMPALA��Ҫ14000��CPU��

��DeepMind Lab�ϣ��ʹ��64��TPU�ں�ʵ��ÿ��240��֡��ǰ��Ƚ��ķֲ�ʽ��IMPALA��80��⽫��߱��ʱ��ͼ��Ч�ʡ��ͬ��ٶ��£�IMPALA��Ҫ��CPU��SEED RL��3~4��

��ʱ��ƣ��DeepMind Lab��Ϸ��explore_goal_locations_small��ʹ��IMPALA��SEED RL��õĽ��Ƚϡ��SEED RL��ѵ��ʱ��١�

��żܹ��Ż��Լ��ִ��ʹ�ã�Ϊ��Ч�ʶ��ģ�ʹ�С�Ǻ��Ȼ�ġ��֤��ͨ��ģ�͵Ĵ�С��ᣬ��ܹ��֮ǰδ��Ĺȸ��о��ġ��ѡ��

��ͬ�ܹ��ڹȸ��о��ѡ��ϵĵ÷֡��֤��ͨ��ʹ��һ��ģ�ͣ��õ��˸��ƣ��ͨ��ѵ��ģ�Ϳ��AI��

��SEED RL��չʾ�Ľ��֤��ǿ��ѧϰ��ü��һ�θ��ѧϰ�е��

ԭ��ӣ�

https://ai.googleblog.com/2020/03/massively-scaling-reinforcement.html

��: 2020-03-302020-03-30 19:07:03
��Ϊ InfoQ ��վ�ع��
�׷��ַ��https://www.infoq.cn/article/p9fSANJZKfRuOjdMQoAd
��Ȩ��ϵ cloudcommunity@tencent.com ɾ��

��Ѷ

ÿ�봦��240��֡��Ϸ��棬AIѵ��ɱ��80��ȸ迪ԴRL��м��
2024-05-06
DeepMind��о��򣬰��ʵ�ֵ��ǿ��ѧϰ
2024-05-06
DeepMind�Ƴ��ֲ�ʽ��ǿ��ѧϰ�ܹ�IMPALA��һ��Agentѧ��ּ��
2024-05-06
��ˣ��ʹ��DeepMind�ֲ�ʽǿ��ѧϰ��Acme ��Կ��߳��Ѻ�
2024-05-06
DeepMind��Acme��Ч�ֲ�ʽǿ��ѧϰ�㷨��ɱ�дRL��
2024-05-06
��ɱ��ͣ��Ƿֲ�ʽǿ��ѧϰ�㷨��о��չ
2024-05-06
��ѧϰ��Github��ǰ19��ǿ��ѧϰ (RL)��Ŀ��Դ��ַ��
2024-05-06
100��֡��ݽ�1�룡AI��ţ��ˮ��Ŷ�ǿ��ѧϰ��ѿ�Դ
2024-05-06
Acme��㣡�ù�һ�κ� �׶ز�ʿ׫�Ĵ��DeepMindǿ��ѧϰ��
2024-05-06
��OpenAI��ȸ��ذ��Դǿ��ѧϰ��Dopamine
2024-05-06
��ǿ��ѧϰ��;��
2024-05-06
��ǿ��ѧϰ��;��ޣ��ϣ�
2024-05-06
Ч��50��ȸ��ͼ��ѧϰ��ǿ��ѧϰ�·��
2024-05-06
�˹��ܨC��ǿ��ѧϰ
2024-05-06
DeepMind��ǿ��ѧϰϵͳ��ͨ��AI��һ��
2024-05-06
DeepMind ��Acme��ܣ��ɼ�ǿ��ѧϰ�㷨��
2024-05-06
DeepMind��ǿ��ѧϰ̽��Զ�Ͱ��ѧϰ��
2024-05-06
��ģ��ǿ��ѧϰ�㷨��BAIR��ԴRL��rlpyt
2024-05-06
��ǿ��ѧϰ�桶��¡�
2024-05-06
ǿ��ѧϰ��ţSergey Levine��RL��Ϊ��չ�Լලѧϰ�Ļ��
2024-05-06

ɨ��

��վ�� Ⱥ

��ȡר�� 10Ԫ��ż�ȯ

˽�� ��ɻ�

�ȸ��Ƴ��ֲ�ʽǿ��ѧϰ��SEED RL��ٶȱ�IMPALA��80��

��ǰ�ķֲ�ʽ�ܹ�

SEED RL�ܹ�

ʵ��

��Ѷ

ɨ��

��

�

��Դ

��

��Ѷ�ƿ��

��Ų�Ʒ

��Ƽ�

��Ƽ�

�ȸ��Ƴ��ֲ�ʽǿ��ѧϰ���SEED RL�������ٶȱ�IMPALA�����80����

��ǰ�ķֲ�ʽ�ܹ�

SEED RL�ܹ�

ʵ��

�����Ѷ

����

�

��Դ

����

��Ѷ�ƿ�����

���Ų�Ʒ

�����Ƽ�

�����Ƽ�

�ȸ��Ƴ��ֲ�ʽǿ��ѧϰ��SEED RL��ٶȱ�IMPALA��80��

��Ѷ

��

��

��Ѷ�ƿ��

��Ų�Ʒ

��Ƽ�

��Ƽ�