��/��/��ţ

��

ǿ��ѧϰ��Ķ��ʼ�ϵ��-�ھ�ƪ��1��

��Դ��

ע1��ƪ��µ��ݣ��ͬ��ר��֮ǰ��ġ��ƽ�˼�롱��˴��޶��Ϊ��ǿ��ѧϰ��ʼ�ϵ��£�ʹ��϶��߿��¸��Ÿ�ϵ�м��Ķ�ѧϰ��Ҷ��ܷ��֡�ǿ��ѧϰ��о��Ȥ��

ע2��ö��ʼ�ϵ��µĲο��鼮��ȸ��Ϊ2018��°桰Reinforcement Learning: An Introduction��ص�ַ��http://incompleteideas.net/book/bookdraft2018feb28.pdf

�ڿ�ʼ��һƪ��֮ǰ��Ȼع�һ��ǰ8ƪ��ἰ��ݡ��˵��ǰ��ƪ��ĸ��ǿ��ѧϰ��DP��MC��TD�ȣ��һ��ͬ��·��ݱ��洢ÿһ��״̬��state��ļ�ֵ��value��Ȼ��ò�ͬ�ķ�ʽ��Щ״̬��value��ֱ��ÿ��״̬�²�ͬ��action��Ӧ��value��Ӧ��ѡ��ĸ�״̬��Ҳ��ȷ��˲��ԣ�policy��ܲ�ͬ�ķ��֮��ЩС�Ĳ��죬��Ǵӱ��Ͽ��Ƶġ�

��Ǵӱ�ƪ��ʼ�ἰ�ġ��ơ��ȴ�ڱ��˼��ش�ı䣬Ҳ��һЩͻ��ص㡣��Ҫ˵��ǣ��ơ��һ��˼�룬��һ�෽��Ӻ��½ھ��ܿ��˼�룬��ܶ಻ͬ��͵ķ��ͬʱ��÷��Ҳ��ʽ��ǿ��ѧϰ�ͻ��ѧϰ��ϵ��ǿ��Ի��һЩ��ơ�

��ô��෽��ʲô�ı䣿��һ��״̬�ļ�ֵ��value��Ĵ洢ʹ�ú��ݱ��ڶ��û��ѧϰ��е��мලѵ��ʽ��º��Ĺ��в��ֱ��һ��ѵ��ɣ��Ǿ��Ȼ�õ��ˡ�״̬x��C��״̬��ֵ��y��֮��ӳ��ϵ��Ȼ��״̬��ֵ��Ծ��˳��µ��ˡ��ı�Ҳ��Ӧ��ص㣺��һ��Ʒ��Ҫ��Ĵ洢�ռ��״̬��Ϊ��Ĳ��ͨ��ԶԶ��ڻ��״̬��Ҳ��Ǹ��⣩��ڶ��ѵ��ĺ��߱�һ��ķ��ԣ��Ҳ�ǻ��ѧϰ��ĳ��ԣ��Ӧ�Բ��ֿɹ۲�Ļ��ʵ��Ӧ��ǿ��ѧϰ��Ǹ��£��Ϊ�ܶ�ʱ��޷����״̬�ġ�

��濪ʼ��ʽ��һ�෽��

1 ��˼��

1.1 ʲô�ǡ��ơ�˼�룿

��ĳ�ֺ��Ժ��߷��Ժ��ȵȣ��С��ѵ��ϼ�ֵ��ֵ��ʹ֮�ڽϴ��ģ�Ĳ��ͬ��á��˼��Ҫ��ú��Ų��

1.2 Ϊʲô��ơ�˼�룿

��1��ݱ��ʽ�ļ�ֵ��ȱ�ݡ�

��ĿǰΪֹ��Ƕ�ǿ��ѧϰ��ۣ��tabular��ʽ��Ҳ��ǲ��һ�ű��洢��ǰ��ļ�ֵ��ű��python��ֵ�ṹ��еġ�״̬/״̬-��Ϊkeys��ÿ��״̬/״̬-��ļ�ֵ��Ϊvalues��Ϊʲô��ݱ��ʽ��ǿ��ѧϰ��ǿ��ѧϰ��Ĺ�ģ�أ��ԭ��1��ڴ�ռ䡣��ģ��ʱ��洢��ôһ�ű��Ҫ��ڴ�ռ��Ǿ޴�ġ�2��ʱ��ģ��׼ȷ�ؼ��ű��е�ÿ��ֵ��Ҫ��ʱ�俪��Ǿ޴�ģ�ͬʱ��ںܶ�ʵ��У��Щ״̬�Ͷ��Զ��ֵģ��͵��¼�ֵ��׼ȷ��㡣

��ⷬ��ᵽ��⣬��ܽ�󣬾��ĸ��֣��⣬��С��ģ��ϻ�õľ��飬��ô��ܹ��ڴ��ģ��Ҳ��ã�

��2��ʽ�ļ�ֵ��Խ��

ʹ�ú��Ƶ�˼�룬��ֻ��ҵ�һ��ŵĲ��Ҳ��ȷ��ŵ��Ϻ��Ϻ��Ȳ��Ҫ�洢��״̬��ֵ��Ϣ��Ҳ��Ҫ�󿴵��״̬-��ռ䡣ֻҪ��Ĳ��״̬-��ռ䱳��Ĺ��ɣ��ô��Ϳ��κ��¶��ã�Ҳ��Ƿ��á�

1.3 ��Ҫע��

��˼��Դ�ڴ�ͳ�Ļ��ѧϰ��⡣��˼��ֲ��ǿ��ѧϰ��У��Ȼ��һЩ��⡣��Ϊǿ��ѧϰ�д��ںܶഫͳ��ѧϰû�е��ص㣬��磺��ȶ��ԣ��״̬�ֲ��ͽ��ֲ��Ĳ��ȶ��ԣ��Ծ��ԣ�bootstrapping��Ŀ��Ӻ��ԡ��ڽ��ƽ�˼��ںϵ�ǿ��ѧϰ�Ĺ��У��Щ��ⶼҪ��ǵ��Ӧ�Ľ��

1.4 ��ú��˼��on-policy prediction��⣿

��֪��ǿ��ѧϰ�д��on-policy��off-policy֮�֣�Ҳ��prediction��control��֮�֡��ʵ�ϣ�on-policy��off-policy�ı��ڣ��ĳ״̬�ļ�ֵ��ʱ��ʹ�õķ��üȶ��Ĳ��ԣ�on-policy��ʹ��²��ԣ�off-policy��prediction��control��ı��Ƶ��״̬��ֵ��Ƕ��ֵ��ʵ��Ǽ��Ƶ��ͬ��⣬��Ǳ�ƪ�ʹ�on-policy��prediction��֣��˼��ôӦ�á�

��Ȼ��˼��Դ�ڴ�ͳ��ѧϰ��ô��Ҫ��Ҳ�ܲ��˻��ѧϰ��һ�ס��ں��˼��Ķ��ᵽ��˼��Ҫ��ú��Ĳ��󣿷�Ϊ��裺

��1��ȷ��ֵ��ģ��

��2��ȷ��Ż��Ŀ�꺯��

��3��ȷ��ĸ��㷨

��ڲ��ݽ��ǽ��on-policy prediction��Ŀ�ܣ��ֱ��ۡ�

2 ȷ��ֵ��ģ��

2.1 ��ֵ��Ĳ��̱�ʾ

��ǰ�漸�£��ֵ��ǲ��ݱ��ʽ�洢��һ��ܲ�һ��ӡ��һ�¿�ʼ��ǿ�ʼ��ò��̵��ʽ��ʾ��ֵ��д��д��ʾ��Ȩ��Ϊʱ��״̬s�ļ�ֵ��ֵ��磺��ǹ��״̬��Ժ��ÿ��Ԫ�ر�ʾÿ��Ȩ�أ��ͨ��罨ģ�õ��ķ��Ժ��ʾ��Ԫ֮��Ȩֵ��ͨ��ı䣬��ǿ��Եõ��ָ��Ϻ��һ��˵��Ԫ�ظ��ԶԶ��״̬��ÿ�ı��һ��Ԫ�أ��Ӱ��ܶ�״̬��ֵ�Ĺ��

2.2 ȷ��ѵ��

��Ȼ��ơ��ڼලѧϰ�ļ��ɣ��ô��Ȼ��Ҫ��ѵ��һ��֮ǰ�ڴ��prediction��ʱ��ǻ��ᵽ��¡��ʣ�Ҳ��backups��ؿ��㷨�У�backup��,Ҳ��˵��״̬��value��ŵķ��£��Ҳ��target��ͬ��TD(0)�㷨�У��¹��ǣ��

��Ȼ��뵽��ɷ�ѷ��е��Ϊһ��ѵ��input��output��ʽ��״̬s�ļ�ֵ��Ӧ�ø��v��Ҫ�õ��Ϻ��ص�ҲӦ��ڰ�״̬s�ļ�ֵ��Ϊv��ȷ��е��Ϊѵ��

2.3 ��ģ�͵�ѡ��

ȷ��ѵ��֮��ԭ��ǿ��ѡ��κ��͵ļලѧϰģ��ѵ��ǲ��ģ�Ͷ��ʣ�Ϊʲô�أ��Ҫ��о�һ��ǿ��ѧϰ��ص㡣

ǿ��ѧϰ��Ҫʵʱ��ѧϰ��һ�ߺͻ��һ��ѧϰ��Ҫһ��Ч�ʺܸߵ�ģ�ͣ��Բ��Ͻ��ѵ��п��ѧϰ��

ǿ��ѧϰ��Ҫ��̬Ŀ�꺯��⡣��ô��⣿��ǿ��ѧϰ�У��ر��ǰ��GPI��̣��¶�̬�滮��4.6��֣��value function��policy��µ��£��ű仯��Ǿ�Ҫ��ϵرƽ��仯�ġ��⣬��㲻�䣬��ôͨ��bootstrapping��DP�о��õ��ѵ��Ŀ��ֵҲ�Ƿ��ȶ��ģ�ͬһ��state��Ŀ��ֵ�Ƕ��

ǿ��ѧϰ��ص�ʹ�ͳ��ѧϰ��ͬ��ѡ��ĺ��ģ�ͱ��ܹ�Ӧ��ص��

��Ȳ��ģ�ͣ�ֻ˵��ģ�͵ı�Ҫ�ص㣬��һƪ�ڶ��л��۾��ģ�͡�

3 ȷ��Ż��Ŀ�꺯��

3.1 Ϊʲô��Ŀ�꺯��

��֪��ڻ��ѧϰ�У�Ϊ�˵õ�һ��׼ȷ��ģ�ͣ��Ҫʱ�̼�ظ�ģ�͵�ѵ��ݻ��̣�ȷ��ģ��õķ��ʲô�Ǻõķ��棿��ôȷ��أ�ͨ��Ծ��񣬽��ʵ�Ŀ�꺯��ʱҲ��ʧ��ͨ��֤ģ�͵ĸ��ʼ�ճ��ʹ��ʧ��ϼ�С�ķ��տ��Եõ�һ��ģ�Ͳ��

֮��֮ǰ��Ǵ�û��ȷ��Ŀ�꺯��Ϊ��ݱ��洢��ֵ��ʱ��Ҫ��ôһ��Ŀ�꺯��Ϊ��ֵ��ѧϰ��տ��Զ��õ��ʵֵ��⣬��ݱ��洢��ʽ�£�ÿ��״̬�ļ�ֵ��¹��̳��໥��ϵ��A״̬�ļ�ֵ��º󣬲��Ӱ��B��C״̬�ļ�ֵ��Ϊ��ݱ��ÿ��໥��ġ�

��ǣ�ͨ��˼��м�ֵ��Ĺ��ʱ��ֽ��ϵ��ˣ�A״̬�ļ�ֵ��º󣬻ᵼ��ģ�Ͳ��仯��Ӷ��Ӱ��״̬�ļ�ֵ��˲��п��ʹ��״̬�ļ�ֵ��ﵽ��ʵֵ��

��ԣ��Ҫ�ƶ�һ��Ŀ�꺯��Ŀ�꺯��Щ״̬��Ǹ��ں��Щ״̬��ǲ��ں��ں��״̬��ʵ��ļ�ֵ��ƾ�ȷ�ȣ��ں��״̬��ʵ��ļ�ֵ��ƾ�ȷ�ȡ�

3.2 ȷ��Ŀ�꺯��

��ѧ��Ǽ��£��Ƕ��һ��ʷֲ�,��ʾ��ÿ��״̬��ֵ׼ȷ�ȵ��ں��̶ȡ�ͬʱ��ü�ֵ��ֵ��ֵ�ľ��Ϊ��Ķ��塣��֣��Ƕ��Ŀ�꺯��£�

MSVEȫ�ơ�Mean Squared Value Error��ֵ��

��˵һ�µ��ѧ��壺ͨ��ʾ��Ŀ��£��״̬s�ϵ�ʱ��ռ��ʱ��ı��ʱ��on-policy distribution��ɢ��У��в�ͬ��ϸ�ؽ��ʷֲ��Ϊ��ɢ��г�ʼ״̬��ѡ��Ը÷ֲ��һЩӰ�졣��Ҳ��ɢ��µĶ��壺

��h(s)��ʾ״̬s��ѡ��Ϊ��ʼ״̬�ĸ��ʷֲ��

��Ҫ��Ѵ�ҵ��ǣ�MSVE��һ��õ��ָ�꣬��Ϊ��յ�Ŀ��ü�ֵ��Ĺ��ֵ�ҵ��ŵ�policy��Ŀ�Ĳ��һ��Ҫ��С��MSVE��ĿǰҲ��ɶ��õ�ָ�꣬��˻��Ǽ��ѡ��MSVE��

3.3 ��Ŀ�꺯��

��ȻĿ�꺯��ĳ����ô��ú��ʹ��ֵ��ԽСԽ�á�Ϊ��С��MSVE��ʵ��Ҫ��ľ��ҵ�ȫ��Ž⣬Ҳ��ҵ�һ��ض��ģ�ʹ��:

ֵ��ע��ǣ��ڼ򵥵��ģ�ͣ��ҵ��Ƕ��ڸ��ӵķ��ģ�ͣ��߾��ѵõ��ڸ��ӷ��ģ��г��õ��ǡ�Ѱ�Ҿֲ��Ž⡱��Ҳ��ҵ�һ��ʹ��㣺

��ˣ��ǽ��˻��ں��˼��ϼ�ֵ��ǿ��ѧϰ��Ĵ��ܡ�

��һ�ڿ�ʼ��ǿ�ʼ��۾��Ĳ��㷨��Щ��Ҫ�ǻ��ݶ��½��ۡ�

4 ȷ��㷨

Ϊ��ҵ��ŵĲ��Ҫ��һ��ʼ�ĳ�ʼֵ��ֵ��ϵ��¡��Щ��µ��㷨��Բ��أ�

4.1 ��ݶȷ��

��Ҫ��۵Ĳ��㷨��Ҫ��ݶ��½��ۣ�SGD��SGD��ڲ��е��ü��㷺��෽��ǡ��Ҳ��ʺ�ʵʱ��ߵ�ǿ��ѧϰ��

��ݶ��½��У��ֵ��Ϻ��Ƕ��

�ϣ��ڵĹ⻬��΢��ǻ��ѵ��е�ÿ��ɢʱ��ϸ��£��Ҫһ��·��ű��ÿһ��ʱ��t�ϵġ�

��ٶ��ǵ�ѵ��е�״̬�ֲ��һ��MSVE��ﶨ��ķֲ��ͬ��ǿ�ʼ��ָ��£��Ե�һ��ڹ۲⵽��ѵ��Ͼ��ܵؼ�С��SGD��ÿ��ѵ��ϰ��MSVE��С�ķ��¡��ǻ��õ��ݶ��ݶȵĺ��ڴ˾Ͳ�׸��ˣ��Բ鿴��ѧ��ѧ�α��

��֮��ĸ��ʽ��

��ʽ��Կ��ĸ��MSVE��ĸ��ݶȷ��ģ��ݶȵĶ��壬��Ҳ��½��ķ��ʾ��ÿ�θ��µķ��ȡ�

��ܶ��߻��ʣ�ΪʲôҪSGDÿ����һС��ֱ�ӳ��أ�ԭ��ǣ��ǼȲ��ҪҲ��ڴ��յļ�ֵ��״̬�ϵ��ȫ��Ϊ0��Ҫ��Ǽ�ֵ��ڲ�ͬ״̬��֮��ĳ��ƽ�⡣��ÿһ��۲⵽��״̬�϶����ô�ͻᷢ�ֻ᲻��𵴣��ԶҲ�Ҳ��ֲ��ˡ��ʵ�ϣ��ݵڶ�ƪ�ᵽ�ġ��׼��Ҫ��ʱ��ϼ�С�ģ�ֻ��ˡ��׼��ڶ��¶�۶Ĳ�� 2.5��֣��ݶ��½��ܱ�֤��ֲ��Ž⡣

��Ҫ��һ��Ҫ��⣺ѵ��output��֣��еģ��ʵֵ��ô�죿��ʵ��кܳ��Ϊ�ܿ��Ǳ��Ӱ��ʵֵ��״̬��º��ĳ��ʱ��ĸ��¹�ʽ��Ҫ�ĳ��ʾ��ô��棺

��ǵ��ƫ��ֵ��ô��ݡ��׼��Ȼ��֤��Ҫ��ʱ��ϼ�С�� U_t ��ǵ��ƫ��ֵ��ô�Ͳ��ܱ�֤��

��Ϊ��ƫ��ֵ��һ��Ͱ��ؿ��㷨��target value��ǵô��ɶô��ʾ״̬��Ӧ��return,��ֵ��ܺͣ�Ҳ��discounted sum��Ϊ�ǵ��ƫ��ƣ��ݶ��½��汾��ؿ��ֵ��㷨�ǿ��ȷ��ҵ��ֲ��Ž�ġ�

��ǽ��ͳ��ؿ��㷨��ݶ��½��汾��ؿ��㷨��α��룺

4.2 ��ݶȷ��

˵��ر��ؿ��㷨��target value��Ҳ��ѵ��output��Ҫ��˵��ʲ��ֹ۵�target��ǲ��Ծٷ��bootstrapping��Ƶõ��ֵ��ֵ��

��һ��ļ��㷨��Ծٷ��м�ֵ��Ĺ��ƣ��

��1��TD(��)ǰ��ӽǵ�target value��TD(��)��ǰ��ӽǲ��æ�-return,��target value�ǡ�Ȼ��

��2��DP��target value��ͬ��DP��Ҳ��bootstrapping��target valueҲ��ǵ��ƫ��ƣ��˸÷��ݶ��½��汾�޷��ҵ��ֲ��Ž⡣

Ϊʲô��Ծٷ��м�ֵ��Ƶõ��target value��ʲ��أ��Ϊ�ӵ��ݶȸ��¹�ʽ��Կ��target��Ҫ��໥��Ӱ�졣��һ��Ծٷ��޷��㣨��ʽ��첿�֣��

��һ��target��ݶȸ��¹�ʽ�󣬵õ��ֻ�ǲ��ݶȵ��½��ݶ��½��˰��ݶȸ��·��ݶȷ��semi-gradient methods��

��ǿ��Կ��ݶ��½��㷨��ݶ��½��㷨��ʽ��һ��ģ�ֻ��target��ص㲻һ��ֲ��㷨��Ψһָ�꣬��ǿ�target��ѵ��output��Ƿ��input��״̬��ʵ��ֵ��ƫ��ơ�

��ݶȷ��Ȼ��ʲ��ݶ��½��Լ��ŵ㣺

��1��ݶȷ��ģ��¿��Ա�֤��

��2��ڿ��£��ݶȷ��ٶ��ر�졣

��3��ݶȷ��У��صȵ��н��

��һ��ݶȷ��ĵ��Ͱ��semi-gradient TD(0)

�ڶ��Ԥ��

��ģ�͵Ĳ��֣��û��ģ�͡��¸��֣��ǽ��һ��ģ�͡��ģ�ͣ��Ϊ�ı�ʾ��ʽ��

��ڴ��

��: 2018-03-052018-03-05 18:00:34
ԭ��http://kuaibao.qq.com/s/20180305G150T000?refer=cp_1026
��Ѷ��Ѷ�ƿ��Ѷ��ݿ��ƽ̨�ʺţ��ţ��֮һ��Ѷ��ݿ��ƽ̨��Э�顷ת�ط��ݡ�
��Ȩ��ϵ cloudcommunity@tencent.com ɾ��

��Ѷ

ɨ��

��վ�� Ⱥ

��ȡר�� 10Ԫ��ż�ȯ

˽�� ��ɻ�

ǿ��ѧϰ��Ķ��ʼ�ϵ��-�ھ�ƪ��1��

��Ѷ

ɨ��

��

�

��Դ

��

��Ѷ�ƿ��

��Ų�Ʒ

��Ƽ�

��Ƽ�

ǿ��ѧϰ����������Ķ���ʼ�ϵ��-�ھ�ƪ��1��

�����Ѷ

����

�

��Դ

����

��Ѷ�ƿ�����

���Ų�Ʒ

�����Ƽ�

�����Ƽ�

ǿ��ѧϰ��Ķ��ʼ�ϵ��-�ھ�ƪ��1��

��Ѷ

��

��

��Ѷ�ƿ��

��Ų�Ʒ

��Ƽ�

��Ƽ�