首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

DeepMind最新研究:让AI像人一样学习理解“视觉场景”

编辑 | 都保杰

微信 | ai_xingqiu

网址 | 51aistar.com

当我们理解一个视觉场景的时候,其实我们的大脑比我们想象的要多,大脑会利用先验知识来做推理,并做出超越视网膜在单纯光线模式下的场景推断。

例如,当第一次走进房间时,你会立刻识别出它所包含的物品以及它们的位置。如果你看到一张桌子的三条腿,你会推断可能有第四条腿,即便那些形状和颜色隐藏在视线之外。即使你看不见房间里的每样东西,你也很有可能勾勒出它的布局,或者从另一个角度去想象它的样子。

这些视觉和认知任务对人类来说似乎是毫不费力的,但它们对人工智能系统来说是一个重大挑战。今天,最先进的视觉识别系统使用人类生产的注释图像的大数据集进行训练。获取这些数据是一个费时费力的过程,需要个人在数据集中的每个场景中标记每个对象的每个方面。因此,通常只捕获场景的整体内容的小子集,这限制了在该数据上训练的人工视觉系统。

当我们开发更复杂的机器在现实世界中运行时,我们希望它们能完全理解所在的环境:最近的表面在哪里?沙发是用什么材料做的?哪个光源产生了所有的阴影?电灯开关可能在哪里?

所以,在这篇发表于《科学》杂志的最新论文中,我们介绍了生成查询网络(GQN),一个框架内,机器学习感知周围的环境,只训练自己获得的数据,进而理解他们周围的场景。就像婴儿和动物一样,GQN通过尝试观察周围的世界来学习。在这样做时,GQN学习似是而非的场景和它们的几何性质,无需人类来对环境中的内容进行大量标记。

GQN模型由表示网络和生成网络两部分组成:表示网络将观察结果作为输入数据,然后生成一个表征(矢量)。然后,生成网络可以从先前未观察到的点对场景进行预测(想象)。

表示网络不知道生成网络需要预测哪些视点,因此必须找到尽可能准确地描述场景真实布局的有效方式。它通过捕捉最重要的元素,如对象位置、颜色和房间布局,以简洁的分布式表示来实现这一点。在训练过程中,生成器学习环境中的典型对象、特征、关系和规律。这种“概念”的共享集合使得表示网络能够以高度压缩、抽象的方式描述场景,将其留给生成网络以在必要时填入细节。

我们在模拟3D世界中的程序生成环境的集合中对GQN进行控制实验,包含随机位置、颜色、形状和纹理中的多个对象,具有随机光源和重遮挡。在对这些环境进行训练之后,我们使用GQN的表示网络来形成新的先前未观察到的场景的表示。

我们在实验中发现GQN表现出几个重要的特性:

GQN的生成网络可以“想象”以前从原定视角看不到的场景,并且具有非常高的精度。当给定场景表示和新的摄像机视点时,它能生成清晰的图像,而不需要任何透视、遮挡或照明定律的预先规范。因此,生成网络是从数据中学习的近似渲染器:

表示网络可以学习计数、定位和分类对象,在没有任何对象标签的情况下。表示网络的准确把握,比如识别构成以下场景区块的精确配置:

GQN可以表示、测量和减少不确定性。它能够考虑不确定性的场景,即使它的内容是不完全可见的,它可以结合一个场景的多个部分视图,以形成一个连贯的整体,该模型通过其预测的变异性来表达其不确定性。

GQN的表示支持稳健的、数据有效的强化学习。当给定GQN的紧凑表示时,最先进的深度强化学习可以更高效的完成任务。

GQN建立在最近的相关文献中关于多视图几何、生成建模、无监督学习和预测学习等研究的基础上,所提出的方法不需要特定领域的工程或费时标记的场景内容,允许相同的模型被应用到一系列不同的环境。它还学习了一种强大的神经渲染器,能够从新的视点产生场景的精确图像。

与传统的计算机视觉技术相比,我们的方法仍然有许多局限性,并且目前只被训练成在合成场景上工作。然而,随着新的数据源变得可用,并且在我们的硬件能力方面取得了进展,期望能够研究GQN框架的应用到真实场景的更高分辨率图像中。在未来的工作中,重要的是探索GQN的应用到更广泛的场景理解方面,例如通过跨空间和时间的查询来学习物理和运动的常识性概念,以及在虚拟和增强现实中的应用。

无疑,这项工作对于AI完全自主的场景理解来说是相当大的一步。

GQN论文地址:

http://science.sciencemag.org/lookup/doi/10.1126/science.aar6170

如果你想了解最前沿的AI技术和场景应用

一网打尽AI世界的前瞻科技和深度报道

欢迎关注AI星球,并转发朋友圈为我们打Call~~

你们的支持是我们创造优质内容的不竭动力

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180615A1FYDI00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券
http://www.vxiaotou.com