��/��/��ţ

��

��ѧϰ��10�ڣ��Q��ǿ��ѧϰ��£�

��Դ�� - ��˿�

experience replay��explore

ǿ��ѧϰ�У��Ҫ��ѵ��ѵ��һ��agent��һ��棬ѵ��ݱ��agent��ġ��͵��һ��оֲ��⡣�ܵ��˵��Ϊ�˷�ֹ��ֲ��ϣ��ǵ�ѵ��(s,a,r,s_)��(s,a)�ķֲ�ʼ��agent��policy��(s,a)�ֲ��ͬ��

��Ƕ�˵��on-policy�Ǽ��Σ�յġ��Ϊon-policy��ζ��ѵ��ݼ��뵱ǰ��policy�ķֲ��Ǹ߶�һ�µġ�һ��agent��롰��·��ݼ�Ҳ�Ǹ��ݡ��·��(s,a)�ķֲ��뵱ǰ��·�ķֲ��߶��Ǻϣ��ģ��ѵ��̲��ϵ�ǿ��·��Ϊ��ǲ��off-policy�ļ��ѵ��Ĺ��ԡ��ԣ��explore rate�ϴ�ʹ��ѵ��ӷḻ�Ĳ�ͬ��·��Ĳ��裬��r�ġ��͹��ԡ��˵��Щ��ͬ��·��Ǿ��һ��Ƶġ��һ��̶��Ͻ��;ֲ��ķ��ա�

�ò��Ͻ��ͨ�׵ı��˵��on-policy�ͺ��һ��ͷƾ��Լ��policyȥ��ߣ��ͨ��Լ��ľ��ߵĽ��ֽ�һ��ǿ��Լ��ľ��顣��γ��ֻ׷��Ǯ�ļ�ֵ�ۣ��ͻ᲻�ϵ��ظ�׷��Ǯ����Ҵ��н�һ��ǿ��ļ�ֵ�ۣ��Խ��Խ��ִ��Խ��Խ��ڤ��off-policy�ͷ·��һ��ѧϰ�Ĺ��л᲻�Ͻ��ˡ��γ��policy��Ҳ��ֻ��Լ�policy��ľ��ȥѧϰ��Դӱ��˵�policy�йصľ��ѧϰ��ȥ�ı��Լ��ļ�ֵ�ۡ��Ӹ��ָ��policy�ľ��ѧϰ��Ŀ��̬��̬��Ȼ��𽥵ظı��Լ��뷨��һ��ֻ��׬Ǯ��˱�ø��ӹ��ᣬ��ܾͻ�ѡ��õ�policy��Ҳ��Ϊ��׳��ҵ��ȫ��Ľ�Ŷ��ܶ��У��ܻ��塣

��ѵ��ʽ��ġ��ǰ��agent��Ѳ��ԱȽ�Զ��ʱ��ϣ��ѵ��ݵķֲ��agent��policy�нϴ�Ĳ�ͬ��Ա��ٵؾֲ��ں��agent��Ҫ��Ѳ��Ե�ʱ��ϣ��ѵ��ݵķֲ��agent��policy�Ƚ��ƣ��Ͽ��ƺ��һ��Ȳ��ר��Ĺ��̡��Сʱ��ѧϰ��ʶ��ѧϰͨʶ��Ȼ��ϸ��֮��ǽ��Ŀƣ��ѧ־Ը��ʱ��ѡ��Ժϵ��֮�ʣ��Ҫѡ��רҵ��

Ϊ�ˣ��Ҫ��ѵ��Ӿ��off-policy��ԣ��ѵ��ǰ��Ը��ѵ��P(s|a)�ֲ��뵱ǰ��policy��Ӳ�һ�¡��ǣ��־��ܡ��ͷ��β��off-policy��Ҳ��˵��ǲ��һ��ʼ��׼��е�ѵ��agent��ôѵ��Ҳ��ѵ��и��£�ֻ�ǳ�ȡ��ͬ��batchι��agent��ڼලѧϰ�У��׼��ȫ��ѵ��쾭��ġ�Ȼ��ǿ��ѧϰ�У��ַ�ʽ��Ȼ��ʮ��Ƿ�׵ġ�

��ԣ��Q�ķ��У��һ��Ҫ׼��һ��ⴢ��agent��(s,a,r,s)��ݣ��ǰ��˳��ÿ��ȡ��һ��batch��(s, a, r, s)��ѵ��Ȼ��ѵ��ԡ�һ��棬��ڼ��洢�Ķ��agent�ڸ��ʱ��ݣ��ʶ��Щ��ݵķֲ��뵱ǰpolicy��ôһ�¡��һ��棬ÿ��һ��ʱ�䣬��Ǿͽ��ݿ��е��ݶ��һЩ��Ȼ��ٽ��²��ݼ��⡣��һ��Ǽ�ʹ��ݼ��Ĳ��off-policy��ʣ�Ҳ��ɡ��ͷ��β��off-policy��Ϊexperience replay�ķ��һ�ֵ��͵�off-policy��

��ù��ͨ��Խ��ͣ��ˣ��γ��һ�׼��еļ�ֵ�ۣ��簴��׷��Ǯ��Ȼ��ÿ�찴��ļ�ֵ��ѡ��ѡ��õ��һ��ѧϰ��ֻ��Խ��Խǿ��Լ�һ�ж�Ϊ��Ǯ��ļ�ֵ�ۣ��ǣ��С��м��䣬��˳��ȥ��ȥѧϰ��ͻ��ܶ��ʱ��飬�Ǹ�ʱ��㻹��ֻ��Ǯ��ʱ��㻹��׷��һȺС��ڲݵ��ϱ��ܵĺ��졢�㻹��ų��Ҫ��Ϊ��ѧ��̽��̫�յİ��ء��㻹��ҪΪ��Ϊ�л��ΰ��˶�Ŭ��ȫ��ֻ��ľ��Ϳ��ԶԸ��ּ�ֵ��һ��Աȣ��ȥѡ��õ��һ��򵥵Ĵʸ��Ǿ��ǡ��ġ��

��Ȼ��experience replay��˼��һ��agent��Լ��(s,a,r,s)ѵ��Ҳ��ñ��agent��(s,a,r,s)ѵ��ѧ��Ҳ��⡪��һ��ǿ��ǰpolicy��ѵ��ݵķֲ��ͨ�׵��⣬��ζ�Ŷ�ͱ��˽��ӱ��˵��м�ȡ��顭��֮��experience replay�ĺ��ĺ��off-policy��Ҳ��ѵ��(s,a,r,s_)��ܺ��㵱ǰ��agent��policy̫һ�¡�

�ڻ��Q��ѧϰ��У��һ��trick��ʮ��ֵ�ù�ע�ģ��Ǿ��explore��exploit��Ȩ��ȡ�ᡣǰ��˵��agentһ��Լ��policy��Բ��ѵ��һ��Щѵ��ѵ��Լ��policy��ǰ��˵��ѵ��(s,a)�ֲ��뵱ǰ��policy��һ�£��׵��¹��ϡ��experience replay��ȥ��policy��ݼ��policy��ݼ��һ�𣬻�ʹ��ѵ��뵱ǰpolicy��Ƴ̶��½��ǣ��½��޵ģ��ѵ��ֻ��ʷ��policy��ݣ��Ǿ�û��һЩȫ�µĵ�·��exploit-exploreȨ��ȡ��ġ�

Explore��exploit��agent�Ĳ��ԡ�Exploit��˼�ǣ�agent��յ�ǰpolicy��жϣ�ѡ��ŵķ�ʽ��Ҳ��ѵ��explore��˼�ǣ��policy��ѡ��һ��ִ�У��ѵ��ʵ��У��趨һ��exploit rate��0.9��ÿ��agentִ�в��ʱ��һ��0��1֮��ȷֲ��С��0.9��ִ��exploit��ԣ��ڵ��0.9��ִ��explore��ԡ��һ��ǵ�ѵ��оͽ��һ��ֵ�(s,a,r,s_)��explore��ģ��ǵ�ѵ��ĳɷָ��ӷḻ��ַḻ�ǵ��experience replay�ṩ��off-policy��߱��ġ�

��ʵ��ѵ��У��һ��ѡȡ��С��exploit rate��0.5��ݼ��Ȼ��ѵ��룬��exploit rate��Լ0.9�ĳ̶ȡ��һ��agent��ʹ�õ��ݼ��ͻ��ӽӽ��һ��ʼ�뵱ǰpolicy�нϴ��룬�Ұ��˽϶಻ͬ�ġ��·��صľ��飻��ѵ��ĺ��ڣ��뵱ǰ��policy��һ�¡��Ը��õذ��agent��Ų��ԡ��ͨ�׵��ȣ��ͺ��˵��ʱ��Ҫ�ളһ��ȥ��һ�Բ�ͬ����ܲ��ҵ��ʺ��Լ��飻��ʱ��Ҫ��׷��ȶ��Ѿ�ѡ��ҵ�ϴﵽ�߷塣

�ܽ�һ��ڵ��ݡ��Q�ķ��߾ֲ��ķ��գ�Ϊ�˱��Щ��գ��ϣ��ѵ��м�״̬�£��ܹ��ֲ�ͬ��·�µ�Q��Ϊ��ʵ��һ�㣬��ϣ��ѵ��ѵ��뵱ʱ��policy��쾡��󡢰��Ϣ��࣬��ѵ��ڵ�ѵ��뵱ʱ��policy��һ�¡��experience replay��exploit-explore��ȡ��ȷ�ʽ��ʵ��һ�㡣

��κΰ��˻��Q��㷨�У��ղ�˵��Q-learning��DQN��Ҳ��֮��Ҫ��ܵġ�Q��policy��һ��ѵ��Actor-Critic�㷨��A3C�㷨�У��˼�붼�Ǻ��Ҫ�ġ��ע��һ�㣬��Ѿ��ˣ��ѵ��agentȴ��ֵúܲ��

DQN

֮ǰ��ǽ��һ��Ļ��Q��ѧϰ��Q-learning��ǣ��һЩs��м��ֵ��Ϸ��Q��úܴ󡣲��s��ģ��Q-learning��ȫ��Ϊ��ˡ��ԣ��ǿ��ǲ��һ��Q��һ��Q(s,a)��ѵ��Ŀ��Ȼ��ͨ��ݶ��½��ķ��Ĳ��ʹ��Q(s,a)Ԥ��ֵҪ��ӽӽ�r+�� Q(s_)��һ�㿴��DQN��Q-learning�ܽӽ��

��ǣ��Ҳ��ԵĲ�ͬ��Q-learning�У��޸�Q��(s,a)λ�ö�Ӧ��ֵ��Q��ı�Ĳ��ֲ��κ�Ӱ�졣�ʶ��ѵ��ȷʵ�ܹ�ʹ��Q(s,a)��ӽӽ��r+�� Q(s)��DQN�У��޸�Q(s,a)��ֵ��޸��Ĳ��޸ģ��Q(s)��ֵ��Ҳ��ˣ�ѵ��ܲ��ʹ��Q(s,a)��ӽӽ��r+�� Q(s_)��

��ַ��һ��Ǻ��loss=(Q(s,a)?r+��Q(s))2��ڶ��fixed Q-targets��ַ��Ա�֤ѵ��Ĺ��ܹ�ʹ��Q(s,a)��ӽӽ��r+�� Q(s_)��DQN��Ҫ��Q(s,a)�ĳ��У�һ��õڶ��֣��ɢa��ʹ��AC�㷨��£�Q��ֻ��Ҫ��s�ļ�ֵ��ʱ�򣬳��õ�һ�ַ��

��һ��ַ��

Fixed Q-targets��ģ��ṹһ��磬һ��Ϊtarget net��һ��Ϊeval net��ÿһ��(s, a, r, s)��eval net��Q(s,a)��target net��(r+�� max Q(s,?))��Ȼ��loss��eval net�Ĳ��target netվ�ڴ˵ز�Ҫ�߶��ͻ�ʹ��eval net��Q(s,a)��ӽӽ�target net��(r+�� max Q(s_,?))��ǿ��target net��ṩ��ı�ǩ�ģ��Ǽලѧϰ�е�targetһ��

��target net��Ҳ��Ҫ��ġ��ַ�Ϊ��ַ��hard replace��soft replace��Hard replace��ÿ��ѵ��target netѵ��˺ܶ��batch֮��ֱ�Ӱ�eval net��в��հᵽtarget net��soft replace��ѵ��Ĺ��У��eval net�Ĳ��ϵػ��target net��¡��֮��ַ��Ĺ�ͬ��ǣ�target net��ݶȸ��µģ��Ҫ��Ÿ��ӽ�eval net�ķ��µġ�

Ŀǰ��hard replace��Ȼ�Ե��Щ�򵥴ֱ��Ч��ȷʵ�ȽϺá��DQN��һ��hard replace��DDPG�У�github�ϳ��ģ��ƺ��ϲ��soft placeһЩ��ں��ǻ��ר�Ž��һ��soft replace��

��ǿ��ѵ��У�target net�ṩ�ı�ǩԽ��Խ׼ȷ��ѵ��ʹ��eval net��Q(s,a)Խ��Խ�ӽ�target net��ĳһ�̴ﵽ��eval net��target net�Ĳ��ͬ��Q(s,a) = r+�� Q(s)��(s,a,r,s)��ʱ��DQNѵ��ϡ� ��fixed Q target��㷨��Ȥ��ͬѧ��Բο��ġ�Dueling Network Architectures for Deep Reinforcement Learning��

��ǿ��һ��˼·��ֻ��һ��磬��(r+��Q(s)?Q(s,a))2��loss��޸��Ĳ��Ҳ��ʹ��Q(s,a)�ӽ�(r+�� Q(s_))��ң��⻹��磬��ʡ�ڴ�ռ䡣ΪʲôDQNҪ��ȡfixed Q-targets��ַ��أ�

��ʵ�ϣ��a��ɢ��в��AC�㷨ʱ��Ҫ��critic��һ��s�ļ�ֵV(s)��Q��磬��ַ��µģ��ֱ�Ӻ�(r + �� V(s_) �C V(s))��ʧ��ǻ�Ҫר�Ž��һ��ΪʲôACҪ��ȡ��ֱ�ӵĺ��ķ��DQN��أ�

��Ϊ��DQN�У��Q(s,a)��Q(s)��ν��Q(s)ʵ��Q(s, argmaxQ(s,a))��󵼵ġ��Ϊ��Ǹ��²��Q(s)��ӽӽ��ʱ��ܻᵼ��argmaxQ(s,a)��һ��a��һ��a��ʹ��Q(s_)��ǵ��󱳵��ۣ��һ��棬��a��ɢ��в��AC�㷨ʱ��ֻ��V(s)��󵼵ĺ��ʮ��ʶ��⡣

��fixed Q-targets�ļ��ǿ��԰Ѹ��¹�ʽ��Ϊ��

Qeval(s,a)��r+Qtarget(s,arg?maxQtarget(s,a))

�ڸ��¹�ʽ�У��ߵ�Qeval��ѵ��ѵ��ұ߲��ֶ��ȫ��ı�ǩ��Դ��Qtargetֻ��hard replace��¡�

DDQN

DDQN��ʵ��double DQN��DQN��ڲ�ȡfixed Q-targets��Ի��õ��磬eval net��target net��DDQN��Ҫ��ӳ�ֵ��硣ʵ��ϣ�DDQN��һ��DQNҲֻ��һ��

һ��DQN�ĸ��¹�ʽΪ��

Qeval(s,a)��r+Qtarget(s,arg?maxQtarget(s,a))

��DDQN�ĸ��¹�ʽΪ��

Qeval(s,a)��r+Qtarget(s,arg?maxQeval(s,a))

ʵ��DDQN�Ա�һ��DQN��һ��ơ��Ҫ��Ϊ��ܹ��over-estimate��⡣��У�Hasselt֤��˴�ͳ��DQN�ձ��߹��Action��Qֵ��ҹ��Action�ĸ��Ӷ��ӡ��ÿ��a�ĸ߹��Ǿ��ȵģ��ᵼ��ĳ��ŵ�Action�߹��Qֵ��Action��Qֵ��᲻��ҳ��ѵĲ��ԡ�

�Ա��ʽ��ѷ��Qtarget(s,arg?maxQeval(s,a))��Ȼ��Ҫ��Qtarget(s,arg?maxQtarget(s,a))��С�ģ��Ҳ��һ��̶��Ͻ��over-estimate�ķ��ա�

��: 2018-06-132018-06-13 10:04:24
ԭ��https://kuaibao.qq.com/s/20180613G0HGU000?refer=cp_1026
��Ѷ��Ѷ�ƿ��Ѷ��ݿ��ƽ̨�ʺţ��ţ��֮һ��Ѷ��ݿ��ƽ̨��Э�顷ת�ط��ݡ�
��Ȩ��ϵ cloudcommunity@tencent.com ɾ��

��Ѷ

ɨ��

��վ�� Ⱥ

��ȡר�� 10Ԫ��ż�ȯ

˽�� ��ɻ�

��ѧϰ��10�ڣ��Q��ǿ��ѧϰ��£�

��Ѷ

ɨ��

��

�

��Դ

��

��Ѷ�ƿ��

��Ų�Ʒ

��Ƽ�

��Ƽ�

���ѧϰ��10�ڣ�����Q��ǿ��ѧϰ���£�

�����Ѷ

����

�

��Դ

����

��Ѷ�ƿ�����

���Ų�Ʒ

�����Ƽ�

�����Ƽ�

��ѧϰ��10�ڣ��Q��ǿ��ѧϰ��£�

��Ѷ

��

��

��Ѷ�ƿ��

��Ų�Ʒ

��Ƽ�

��Ƽ�