研究人员开发了一套学习算法,事实证明,这些算法比人类玩家或其他AI系统在玩经典视频游戏方面更胜一筹。研究人员解释了他们的算法与其他算法有何不同,以及为什么他们认为它们在机器人技术,语言处理甚至是新药设计中都有应用。
强化学习算法通过综合大型数据集中提供的信息来学习如何做事——它们可以识别模式并使用它们来猜测新数据。这就是强化学习算法用于在X射线中发现肺癌的方法。但是,正如研究人员通过这项新工作所指出的那样,当此类算法遇到与数据集中其他数据不匹配的数据时,往往会遇到麻烦。这就是为什么此类系统有时会返回错误结果的原因。
在这项新的工作中,研究人员通过添加一种算法来解决该问题,该算法可以记住先前算法尝试解决问题时采取的所有路径。当发现不正确的数据点时,它将返回其内存映射并尝试另一条路由。在玩视频游戏方面,它在玩游戏时保留屏幕抓取功能,当发现自己输了游戏时,又回到游戏的另一点并尝试另一种方法。该算法还将看起来相似的图像分组在一起,以弄清楚如果出现问题,它应该返回哪个时间点。
研究人员通过添加游戏规则和目标来测试他们的新方法——尽可能多地得分,并每次尝试获得更高的分数。然后,他们使用自己的系统玩55场Atari游戏,随着时间的流逝,它们已成为测试AI系统的基准。新系统在85.5%的时间内击败了其他AI系统。它在蒙特祖玛的《复仇》中表现特别出色,得分高于其他任何AI系统,并刷新了人类纪录。
研究人员认为,他们的算法可以移植到其他应用程序中,例如机器人进行图像或语言处理。
领取专属 10元无门槛券
私享最新 技术干货