��/��/��ţ

��

��zero-shot��Ӿ��۲��ģ��ר�Ҷ��

��Դ�� - �׿��

ͼԴ��pixabay

ԭ��Դ��arXiv��GitHub

��ߣ�Deepak Pathak��Parsa Mahmoudieh��Guanghao Luo��Pulkit Agrawal��Dian Chen��Yide Shentu��Evan Shelhamer��Jitendra Malik��Alexei A. Efros��Trevor Darrell

��׿��硹��룺��~�ǰ�ͯľѽ��EVA

һ��˵��ģ��ѧϰ�ĵ�ǰ��ʽ��ڶ�ר�Ҷ��expert action��ǿ��ļල��ѧϰģ��ʲô��ģ�¡��׷��һ�ַ�ʽ��һ��û��κ�ר�Ҽල��̽��磬Ȼ��侭�龫��һ��ȫ��ǰ��һ��ʧ��forward consistency loss��Ŀ��Լ��ܲ��ԣ�goal-conditioned skill policy��ǵĿ��У�ר�ҵ��ý��д��Ŀ�꣨��ģ��ʲô��Ȼ��ڿ��ʾ��һϵ��ͼ��֮�󣬸��ѧϰ��Ա��ģ��ר�ң��ģ�£��ǵķ��ǡ��ѧϰ��zero-shot��Ϊ��ѵ��̻��ʾ��У��Զ�޷��ר�Ҷ��ʵ��Ļ��ǵ�zero-shotģ��ʹ��һ��Baxter��˽��и��ӵ��Ӳ��Լ��ǰ��δ��İ칫��ʹ��TurtleBot��е��ͨ��VizDoomģ��еĽ�һ��ʵ�飬��֤��ˣ��õ�̽��ƻ�ʹ֮ѧϰ��Ĳ��ԣ��䷴��Ҳ��ն��ܡ��Ƶ��ģ�ͺ͸��ϸ��Ϣ��https://pathak22.github.io/zeroshot-imitation/��

ͼ1��Ŀ��Լ��ܲ��ԣ�GSP��ǰ��Ŀ��۲��Ϊ��룬��ʵ�ָ�Ŀ��Ķ��С��ǱȽ��GSPģ�͵��ܣ��a��򵥵��ģ�ͣ��b��ǰ��ʷ�ĶಽGSP��c��ǰ��ж��ʷ��ǰ��ģ��Ϊ��򻯵ĶಽGSP��û��ǰ��һ��ԣ��d��ڴ˴��о��ľ��ǰ��һ��ʧ�ĶಽGSP

ģ��ר��ʾ��һ��ǿ��Ļ��ƣ��Դ�ԭʼ�ĸйٹ۲��ѧϰִ��ѧϰ��ʾ��learning from demonstration��LfD��Argall��2009��Ng��Russell��2000��Pomerleau��1989��Schaal��1999��У��ǰ��ʽҪ��ר�ҽ��ֶ��ƶ��˹ؽڣ��ѧ��kinesthetic teaching��Զ�̲��ִ��ר��ͨ��ѵ��ʱ�ṩһ��Ķ��ʾ��Ҵ��ĽǶ��ԡ��۲졪��ԡ��observation-action pair��ʽ��ݡ�Ȼ��彫��Щ��ݾ��һ��ܹ�ִ��Ĳ��ԡ��ֱ��ͨ��ƻ��ṩ��ʾ��ϸ�ල�ķ��ר��˵�Ǽ��䷦ζ�ġ��⣬��ڻ��Ҫִ�е�ÿ��ԣ�ר�Ҷ��Ҫ�ṩһ��µ��ʾ��

ͼ2��ʹ��Baxter��˽��Ķ��Կ��ӻ��

��ͨ��۲졪��ԡ� ��ִ��񣬸�ͨ�õĹ��ǣ��ר��ͨ��һ��Ƶ��һ��ϡ��ͼ��ṩ��״̬�Ĺ۲��Ҫ��ʲô��ͨ��ַ�ʽ��Ҫ�Լ��ƶ��ִ��񣨼��ѧ�У��ⱻ��Ϊ�۲�ѧϰ��observational learning��Bandura��Walters��1977��Ȼ��һ��ѵ�ѧϰ��⣬��Ҳ��һ��Ȥ�Ļ��ã��Ϊר�ҿ��Կ��١��ɵ��ʾ��

һ��û��κ��֪ʶ��ᷢ�֣��ͨ��ۿ��а��򵥵İ��֮�⣩�еĿ��ӻ��ʾ��ģ��Ƿǳ��ѵġ��ˣ�һ��Ե��ǣ�Ϊ�˽��ģ�£��߱�ʲô��֪ʶ��о��Breazeal��Scassellati��2002�ꣻDillmann��2004�ꣻIkeuchi��Suehiro��1994�ꣻKuniyoshi��1989��1994�ꣻYang��2015�꣩��ͼͨ��ֶ�Ԥ�ȶ��ӹ۲��ƶϳ��״̬��ȡ��֪ʶ��Ȼ��ƶϳ��ʹ��״ִ̬��񣨼��滮ģ�£��ҵ��ǣ��Ӿ�ϵͳ��޷��ȷ�ع��״̬��state variables��Ҷ��εĹ滮ϵͳ��˵��Щ��³��Ѿ��֤��Ƿǳ��Ҫ�ġ�

ͼ3��TurtleBot�켣�Ŀ��ӻ��ӳ�ʼͼ��Ͻǣ��Ŀ��ͼ��Ҳࣩ

��Ȿ��У��Ǹ��棨Agrawal ��2016��Levine��2016��Pinto��Gupta��2016��׷��һ�ַ�ʽ��һ��û��κ�ר�Ҽල��̽��Щ̽��ݾ��Ŀ�굼��ļ��ܡ��Щ��ܿ��ģ��ר��ṩ��Ӿ��ʾ��Nair��2017����ʹ�õļ��ָ��һ��ú��Ԥ�⶯��Խ��ӵ�ǰ�۲��ȡ��Ŀ��С��ǽ��ΪĿ��Լ��ܲ��ԣ�goal-conditioned skill policy��GSP��GSP��Լල��self-supervised��ķ�ʽ��ѧϰ�ģ��̽��ʵ�״̬��±��ΪĿ�꣬��ִ�еĶ��ΪԤ��Ŀ�꣬��Agrawal��2016��Andrychowicz��2017��ĸ����У��ʾ�е�Ŀ��۲죬GSP��ƶϳ��η��ӵ�ǰ�Ĺ۲��ʵ��ЩĿ�꣬�Ӷ��𲽵ؽ��ģ��

һ��˵��ѧϰGSP��һ��ؼ��ս��ڣ��һ��״̬��һ��״̬�ж��ֿ��ܵķ�ʽ��Ҳ��˵��״̬֮��Ĺ켣�ֲ��Ƕ�ģ̬�ġ��ʹ��ȫ�µ�ǰ��һ��ʧ��⣬��ֱ��ڴ��˵��ﵽĿ��ȴﵽĿ��ķ�ʽ��Ϊ��Ҫ��Ϊ��ʵ��һ�㣬��ѧϰһ��ǰ��ģ�ͣ��ڸ��һ��һ��ǰ�Ĺ۲��Ԥ��һ��۲��ʹ��GSPѡ��ģ�ͺ��һ��ʵ��״̬��Ĳ��ѵ��GSP��ʧ��ʹGSPԤ��Ķ��ʵ��ж��һ�£��ȫƥ�䶯��Ӷ�ȷ��ʵ��ղ�ͬ�Ķ��ܹ��ͬ��һ��״̬��ܵ��ĳͷ��ǵ�Ҫʵ�ֲ�ͬĿ��Ĳ�ͬ��ʹ��һ��Ŀ��ʶ��Ż�GSP��ȷ��ǰ��Ŀ��Ƿ�õ��㡣��ͼ1��˽�GSP��ϵ�ṹ��ʾ��ͼ��

ͼ4��TurtleBot��׷��һ��Ϊ��ͼ��Ӿ��ʾʱ��ܱ��

��ǽ��ǵķ��֮Ϊ��ѧϰ��zero-shot��Ϊ��GSP��ѵ��ڼ仹��ʾ�ڼ䣬��嶼�޷��ר�Ҷ��֮�£��ڶ��ģ��ѧϰ��oneshot imitation learning��о��Ҫ��ѵ��г��˽⶯��ʹ��ר��ʾ��Duan��2017�ꡢFinn��2017��֮��һ�ַ��1��ѧϰ�ڼ䲻��Ҫ�κ��ⲿ��ר�Ҽල��2��ֻ��Ҫ��н��ʾ��3��ʾ��Ӿ��۲��ж��ȫ��״̬��ǵ��岻��ͨ��ģ��ѧϰ��ѧϰģ�¡�

��ͨ��ʵ��Baxter��еı��֣��Լ�TurtleBot�ڰ칫�ҵ��еı��֣��ǵ��ģ��ܱ��֡�ʵ��ǰ��һ��ʧ��˴�ᣨknot tying��һ��ܣ��ȷ�ȴ�36��ߵ�60��ڵ��ʵ��У��Χ�Ʋ��ֿɹ۲�İ칫��һ��򵥵��ʽ��ˣ��ʾ��ѧϰ��GSP�ܹ��Ļ��С��⣬��VizDoom��½��е��ʵ�飬��Ƿ��֣��ʹ��̽��ѧϰ��GSP��ʹ�ú��̽��Oudeyer��2007�ꡢPathak��2017�ꡢSchmidhuber��1991��ѧϰ��GSP��Ը�׼ȷ�ؽ��׷��ʾ��ԣ��ǵ�ʵ��ǰ��һ��GSP��ģ�¸��񣬶��л��ض��ļ��衣

��о��У��һ�ִ��Ӿ��۲��ģ��ר��ʾ�ķ��ģ��ѧϰ��о��ȣ��ǴӲ��Ҫ��ר�ҵ��Ϊ��ؼ�˼��ʹ��Ҽල̽��ռ��ѧϰGSP��ǣ��Ƹ��ݿ�̽��õ��ѧϰGSP��磬��ʵ��ĵ��ϲ��̽�⣬��ζ��ѭ��֮��Ĺ켣��ˣ��û��м��Ŀ��Ļ��ѧϰ��GSP�޷��һ��Ŀ��ͼ��Pathak��ˣ��2017��ʾ��ѧϰ��ƶ��VizDoom�У��ܺ��ڷ��֮��ת��Ľṹ��ݶ�GSP��ѵ��Ϊ��ṩ��Ȥ��Ϊ��緿��Ŀ�ꡣһ��˵��ʹ�ø��õ�̽��ѵ��GSP��һ��Ч��о��򣬴Ӷ��ģ�µķ��

��ǵķ��һ��ڣ��Ҫ��һ�˳��ӽǵ��ʾ��չ��˳Ƶ��ʾ��Liu ��2018�ꡢStadie��2017��ʹ�ø÷��ڸ�Ϊͨ�õ��һ��ǣ��ڵ�ǰ�Ŀ��У��ʽ�ؼٶ��ר��ʾ��׷��ʱ��Ӿ��۲��ͳ��Ƶġ��磬��ר��һ��н��ʾʱ��ڰ��ݽ��Ҫ��Ͻ��ģ��ʱ��ĸı��ܵ��¸�Ϊ��ܱ��֡�ͨ��ӦʹGSP��ű仯�򻷾��е��仯��³��ԣ��ڽ��˷��չ��ʵ��˵�Ǳز��ٵġ��Ҫע��ǣ��ڵ�ǰ�Ŀ��£��ǲ��Ǵ�ר�ҵ��ʾ�н��ѧϰ��ֻ��ģ��ǡ��о��ר��ѧϰ�ģ��Ӷ�ʹ��Ի��и��õĲ��ֽ��̽��һ��ǳ��Ȥ��顣

ԭ��1��https://arxiv.org/pdf/1804.08606.pdf

ԭ��2��https://pathak22.github.io/zeroshot-imitation/

��: 2018-05-032018-05-03 19:32:49
ԭ��http://kuaibao.qq.com/s/20180503A1FT5B00?refer=cp_1026
��Ѷ��Ѷ�ƿ��Ѷ��ݿ��ƽ̨�ʺţ��ţ��֮һ��Ѷ��ݿ��ƽ̨��Э�顷ת�ط��ݡ�
��Ȩ��ϵ cloudcommunity@tencent.com ɾ��

��Ѷ

Oral��ģ�zero-shot�Ӿ�ģ��ϵͳGSP��۲��ʾ��ѧ��ִ��
2024-05-15
Google��Լල��ѧϰ��ͨ��۲족��ʶ��
2024-05-15
�ȸ�DeepMind��ģ��ģ��ר�ҵ��
2024-05-15
UC�� NIPS 2018 Spotlight��ģ��Ӿ��Ķ��ǿ��ѧϰ
2024-05-15
UC�� NIPS2018 Spotlight��ģ��Ӿ��Ķ��ǿ��ѧϰ
2024-05-15
˹̹��DeepMind��ǿ��ѧϰ��ģ��ѧϰ��ϣ��ʵ�ֶ��˲��ܵ�ѧϰ
2024-05-15
˳��ģ��ν��滥�ݣ��ȸ衢��̽�ָ��
2024-05-15
25��ѵ��ѧ��6��Ч��˲��ݿ��
2024-05-15
Ϊ��RL��ô�ѣ��ʿ��֪POMDP��ʽ��ֿɹ۲��
2024-05-15
LLM��ģ��ѧϰ��ʵ��еĸ��AI2��SwiftSage
2024-05-15
ģ��ģ�ͣ��ȸ��J��rgen Schmidhuber��˹��ξ��
2024-05-15
��ǿ��㷨��Ч��
2024-05-15
��õ�ͼ��ε��DeepMind��˫·��ǿ��ѧϰ��塱�ܹ�
2024-05-15
��з��Ӿ�Ԥ��ϵͳ��˿��δ��
2024-05-15
��ѧϰ֮��ǿ��ѧϰ�е�ģ��ѧϰ
2024-05-15
ֱ�ӽ�ģ�Ӿ��壿�á�С��
2024-05-15
��ģ��飬ͳһǿ��ѧϰ��壬DeepMindѡ��ͨ��AI֮·
2024-05-15
AI�桰��οռ䡱��ȸ��ԡ��ģ�͡��ʵ��ξ��ж��ѵ��
2024-05-15
AI��οռ䣿�ȸ��ģ�Ϳ��ξ��ж��ѵ��
2024-05-15
UC��з��˿��ѧ��򣬡��ո�ǿ��˽�һ�£�
2024-05-15

ɨ��

��վ�� Ⱥ

��ȡר�� 10Ԫ��ż�ȯ

˽�� ��ɻ�

��zero-shot��Ӿ��۲��ģ��ר�Ҷ��

��Ѷ

ɨ��

��

�

��Դ

��

��Ѷ�ƿ��

��Ų�Ʒ

��Ƽ�

��Ƽ�

�������������zero-shot��������������Ӿ��۲���ģ��ר�Ҷ���

�����Ѷ

����

�

��Դ

����

��Ѷ�ƿ�����

���Ų�Ʒ

�����Ƽ�

�����Ƽ�

��zero-shot��Ӿ��۲��ģ��ר�Ҷ��

��Ѷ

��

��

��Ѷ�ƿ��

��Ų�Ʒ

��Ƽ�

��Ƽ�