首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

伯克利提出新型zero-shot方法:智能体从视觉观察中模仿专家动作

图源:pixabay

原文来源:arXiv、GitHub

作者:Deepak Pathak、Parsa Mahmoudieh、Guanghao Luo、Pulkit Agrawal、Dian Chen、Yide Shentu、Evan Shelhamer、Jitendra Malik、Alexei A. Efros、Trevor Darrell

「雷克世界」编译:嗯~是阿童木呀、EVA

一般来说,模仿学习的当前主流范式依赖于对专家动作(expert action)的强有力的监督,以学习模仿什么和如何模仿。我们追求的是另一种范式,即:一个智能体首先在没有任何专家监督的情况下探索这个世界,然后将其经验精炼成一个具有全新前向一致性损失(forward consistency loss)的目标条件性技能策略(goal-conditioned skill policy)。在我们的框架中,专家的作用仅仅是在推理过程中传达目标(即:模仿什么)。然后,在看到演示所期望的任务的一系列图像之后,该已学习策略被用于模仿专家(即:如何模仿)。我们的方法是“零样本学习(zero-shot)”,因为在训练过程或者推理任务演示过程中,智能体永远无法获得专家动作。我们在两个真实世界的环境中评估我们的zero-shot模仿器:使用一个Baxter机器人进行复杂的绳子操作,以及在前所未见的办公环境中使用TurtleBot进行导航。通过在VizDoom模拟中的进一步实验,我们证明了,更好的探索机制会使之学习更有能力的策略,其反过来也会提高终端任务的性能。视频、模型和更多详细信息请见:https://pathak22.github.io/zeroshot-imitation/。

图1:目标条件性技能策略(GSP)将当前和目标观察结果作为输入,并输出可实现该目标的动作序列。我们比较了以下GSP模型的性能:(a)简单的逆向模型;(b)具有以前动作历史的多步GSP;(c)具有以前的行动历史和前向模型作为正则化的多步GSP,但没有前向一致性;(d)在此次研究中提出的具有前向一致性损失的多步GSP

模仿专家演示是一种强大的机制,可以从原始的感官观察中学习执行任务。在学习演示(learning from demonstration,LfD)(Argall等人于2009年提出;Ng和Russell于2000年提出,Pomerleau于1989年提出;Schaal于1999年提出)领域中,当前的主导范式要求专家进行手动移动机器人关节(即:动觉教学(kinesthetic teaching)),或者远程操作机器人以执行所期望的任务。专家通常在训练时提供一个任务的多个演示,并且从智能体的角度以“观察—动作对”(observation-action pair)的形式生成数据。然后,智能体将这些数据精炼成一个能够执行有用任务的策略。这种必须通过控制机器人来提供演示的严格监督的方法,对于人类专家来说是极其乏味的。此外,对于机器人需要执行的每项新任务而言,专家都需要提供一组新的演示。

图2:使用Baxter机器人进行绳索操纵任务的定性可视化结果

相比于通过“观察—动作对” 来交流如何执行任务,更通用的构想是,让专家通过一个视频或一个稀疏图像序列提供所期望的世界状态的观察结果,进而仅仅交流需要做什么。通过这种方式,智能体需要自己推断如何执行这项任务(即:动作)在心理学中,这被称为观察学习(observational learning)(Bandura和Walters于1977年提出)。虽然这是一个更难的学习问题,但它也是一个更有趣的环境设置,因为专家可以快速、轻松地演示多项任务。

一个没有任何先验知识的智能体会发现,仅仅通过观看几乎所有案例(除了最简单的案例之外)中的可视化演示来模仿任务是非常困难的。因此,一个本质性的问题是:为了进行模仿,智能体必须具备什么样的先验知识?大量的研究(Breazeal和Scassellati于2002年;Dillmann于2004年;Ikeuchi和Suehiro于1994年;Kuniyoshi等人于1989、1994年;Yang等人于2015年)试图通过手动预先定义必须从观察中推断出的状态来获取先验知识。然后,智能体会推断出如何使用这个状态执行任务(即:规划模仿)。不幸的是,计算机视觉系统常常无法精确地估计状态变量(state variables),而且对于下游的规划系统来说,具有针对这些误差的鲁棒性已经被证明是非常重要的。

图3:TurtleBot轨迹的可视化,从初始图像(左上角)到达目标图像(右侧)

在这本文中,我们跟随(Agrawal 等人于2016年提出;Levine等人于2016年提出;Pinto和Gupta于2016年提出)追求另一种范式,即:一个智能体在没有任何专家监督的情况下探索环境,并将这些探索数据精炼成目标导向的技能。这些技能可以用来模仿专家提供的视觉演示(Nair等人于2017年提出)。在这里,我们所使用的技能指的是一个函数,该函数可以预测动作序列以将智能体从当前观察提取到目标中。我们将这个函数称为目标条件性技能策略(goal-conditioned skill policy,GSP)。GSP是以自监督(self-supervised)的方式进行学习的,它将智能体探索环境过程中所访问的状态重新标记为目标,并将智能体执行的动作作为预测目标,类似于Agrawal等人于2016年提出和Andrychowicz等人于2017年提出的概念。在推理过程中,鉴于演示中的目标观察,GSP可以推断出如何反过来从当前的观察中实现这些目标,从而逐步地进行模仿任务。

一般来说,学习GSP的一个关键性挑战在于,从一种状态到另一种状态有多种可能的方式:也就是说,状态之间的轨迹分布是多模态的。我们使用我们全新的前向一致性损失来解决这个问题,其基础是直觉,对于大多数任务来说,达到目标比达到目标所经过的方式更为重要。为了实现这一点,我们首先学习一个前向模型,对于给定的一个动作和一个当前的观察结果,它可以预测出下一个观察结果。我们使用GSP选定动作的正向模型和下一个真实参照状态两者输出间的差异来训练GSP。这种损失的作用是使GSP预测的动作与真实参照行动相一致,而不是完全匹配动作本身,从而确保与真实参照不同的动作——但是能够导致相同的下一个状态——不会受到无意的惩罚。考虑到要实现不同目标所需的不同步骤数量,我们提出使用一个目标识别器来联合优化GSP,以确定当前的目标是否得到满足。请参阅图1以了解GSP体系结构的示意图。

图4:TurtleBot在追踪一组作为序列图像给定的视觉演示时的性能表现

我们将我们的方法称之为零样本学习(zero-shot),因为无论是在GSP的训练期间还是在推理任务演示期间,智能体都无法获得专家动作。相比之下,最近关于独热模仿学习(oneshot imitation learning)的研究需要在训练过程中充分了解动作和大量的专家演示(Duan等人于2017年、Finn等人于2017年提出)。总之,我们提出一种方法:(1)在学习期间不需要任何外部奖励或专家监督;(2)只需要在推理过程中进行演示;(3)仅将演示限制在视觉观察中而不是完全的状态动作。我们的智能体不是通过模仿来进行学习,而是学习模仿。

我们通过真实机器人Baxter在绳索操纵任务中的表现,以及TurtleBot在办公室导航任务中的表现,评估我们的零样本模仿器的性能表现。实验结果表明,我们所提出的前向一致性损失提高了打结(knot tying)这一复杂任务的性能,将精确度从36%提高到60%。在导航实验中,我们围绕部分可观察的办公环境操纵一个简单的轮式机器人,并显示已学习的GSP能够泛化到看不见的环境中。此外,在VizDoom环境下进行导航实验,我们发现,相较于使用随机探索数据学习的GSP,使用好奇心驱动的探索(Oudeyer等人于2007年、Pathak等人于2017年、Schmidhuber于1991年提出)所学习的GSP可以更准确地进行追踪演示。总体而言,我们的实验结果表明,前向一致性GSP可用于模仿各种任务,而无需进行环境或任务特定的假设。

在这项研究中,我们提出了一种从视觉观察中模仿专家演示的方法。与大多数在模仿学习领域的研究相比,我们从不需要获得专家的行为。关键思想是使用自我监督探索所收集的数据来学习GSP。但是,这会限制根据勘探数据所获得的已学习GSP的质量。例如,我们在真实世界的导航机器人上部署随机探测,这意味着它几乎不会遵循房间之间的轨迹。因此,如果没有中间子目标的话,已学习的GSP无法导向在另一个房间内所拍摄的目标图像。Pathak等人(于2017)表示,智能体学习沿着走廊移动,并在VizDoom中,纯粹受好奇心驱动而在房间之间进行转换。针对这样的结构化数据对GSP进行训练可以为智能体提供更加有趣的搜索行为,例如跨房间查找目标。一般来说,使用更好的探索方法来训练GSP可能是一个有效的研究方向,从而提高零样本模仿的泛化能力。

我们的方法的一个局限性在于,我们需要第一人称视角的演示。扩展到第三人称的演示(Liu 等人于2018年、Stadie等人于2017年提出)将使得该方法适用于更为通用的情况。另一个局限性是,在当前的框架中,隐式地假定,当专家演示任务和智能体追踪任务时的视觉观察结果的统计是相似的。例如,当专家在一个环境中进行演示时,在白天进行演讲而智能体需要在晚上进行模仿时,照明条件的改变可能导致更为糟糕的性能表现。通过域适应使GSP对这种滋扰变化或环境中的其他变化具有鲁棒性,对于将此方法扩展到实际问题中来说是必不可少的。另外需要注意的是,在当前的框架下,我们不是从专家的演示中进行学习,而只是模仿他们。研究智能体是如何向专家学习的,从而使其对环境中更有用的部分进行探索,将是一件非常有趣的事情。

原文链接1:https://arxiv.org/pdf/1804.08606.pdf

原文链接2:https://pathak22.github.io/zeroshot-imitation/

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180503A1FT5B00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券
http://www.vxiaotou.com