首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

OpenAI 造出一款机械手臂,50 小时就能累积一百年的训练量

由伊隆·马斯克(Elon Musk)创办的非盈利性人工智能组织 OpenAI,今天向我们展示了一项新的研究成果:让机械手可以像人手一样精准地操纵物体。虽然这种仿真造型的手掌我们已经见过很多了,但让“手指”能够和人类的真手一样灵活可动,对机械结构来说可不是一件简单的事。

但你在下面的动图中也能看到,这套名为 Dactyl 的机械手系统能够按照指令要求,轻松完成转动立方体的动作,而且这种复杂精妙的指尖操作,也显然要比过去我们所看到的机器人行走跳跃复杂得多。

Dactyl 自所以能够实现这么高效的运作,和 Open AI 使用的强化学习算法有关系。就像是刚出生的小孩一样,AI 或是机器人刚造出来后同样什么都不懂,如果你希望它能够完全理解某项复杂任务的流程,肯定需要进行反复的训练。尤其是对于真实存在的物理机器人来说,研究人员往往要耗费大量的现实时间对其进行指导练习。

但 OpenAI 现在的做法,却是让机器人在虚拟环境中进行自我学习。他们还会在训练的过程中增加大量的随机事件,让 AI 在这个过程中自己领悟出完成任务的诀窍。

以这次的机械手掌为例,首先,他们会教导机械手臂按照指令,将六面立方体中的正确颜色翻转出来;然后便开始改变周围环境的灯光,以及立方体的颜色、重量和纹理等;甚至还会改变训练过程中的重力环境因素。

之所以会加入这些随机化的变量,也是为了让 AI 能更好的应对各种意外情况的发生:“比如说不同的重力环境下,Dactyl 自己就会去领悟这会对立方体操控造成哪些影响。不然在现实世界中,一旦我们改变手臂的高度,立方体可能就会从手中滑落。”

这种虚拟环境的训练模式还有一个好处,那就是不会耗费现实世界的时间。目前 Dactyl 已经积累了大约 100 年的训练经验,尝试用无数种方法来控制立方体的转动,但实际上这个过程只相当于我们现实世界中的 50 个小时而已。

在虚拟世界里完成训练后,AI 积累的经验就可以直接在现实世界中展现出来了。如今 Dactyl 已经可以连续完成 50 次的立方体旋转操作,且不会出错。

值得一提的是,这种超高效的训练模式不仅能运用在物理机器人上,也同样可以用于其它的虚拟 AI 模型。在去年 7 月份,OpenAI 开发的 Open AI Five 也同样在虚拟世界里经历了上万个小时的学习,实际上只是花费了几天的时间,然后它便在 Dota2 游戏中击败了职业选手 Dendi。

虽然只是一次 solo 对决而非 5v5,但依旧让我们看到了人工智能在电竞这种复杂领域的有效性,包括我们所熟知的“围棋杀手” AlphaGo,也是 DeepMind 公司使用深度强化学习训练出来的 AI 模型。

据说强化学习的灵感最早来源于人类对自然界动物学习过程的长期观察,之所以近几年内才开始尝试,也是受益于神经网络技术的进步,以及 OpenAI 本身的规模优势。毕竟想要实现这种超高效的强化学习流程,自然也得付出不小的运算成本。

按照 OpenAI 给出的数据,Dactyl 的训练设备动用了约 6144 颗 CPU,以及 8 颗来自 Nvidia 的 V100 GPU,这种规模的基础硬件只有很少数的研究机构才能够使用。

不过也有机器人专家认为,OpenAI 这种程度的实验结果依旧很局限,能否真正解决现实世界的人类难题仍然是一个未知数。

来源:爱范儿

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180731A0VSXF00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券
http://www.vxiaotou.com