首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

强化学习算法在经典小游戏中的得分高于人类和其他的AI系统

研究人员开发了一套学习算法,事实证明,这些算法比人类玩家或其他AI系统在玩经典视频游戏方面更胜一筹。研究人员解释了他们的算法与其他算法有何不同,以及为什么他们认为它们在机器人技术,语言处理甚至是新药设计中都有应用。

强化学习算法通过综合大型数据集中提供的信息来学习如何做事——它们可以识别模式并使用它们来猜测新数据。这就是强化学习算法用于在X射线中发现肺癌的方法。但是,正如研究人员通过这项新工作所指出的那样,当此类算法遇到与数据集中其他数据不匹配的数据时,往往会遇到麻烦。这就是为什么此类系统有时会返回错误结果的原因。

在这项新的工作中,研究人员通过添加一种算法来解决该问题,该算法可以记住先前算法尝试解决问题时采取的所有路径。当发现不正确的数据点时,它将返回其内存映射并尝试另一条路由。在玩视频游戏方面,它在玩游戏时保留屏幕抓取功能,当发现自己输了游戏时,又回到游戏的另一点并尝试另一种方法。该算法还将看起来相似的图像分组在一起,以弄清楚如果出现问题,它应该返回哪个时间点。

研究人员通过添加游戏规则和目标来测试他们的新方法——尽可能多地得分,并每次尝试获得更高的分数。然后,他们使用自己的系统玩55场Atari游戏,随着时间的流逝,它们已成为测试AI系统的基准。新系统在85.5%的时间内击败了其他AI系统。它在蒙特祖玛的《复仇》中表现特别出色,得分高于其他任何AI系统,并刷新了人类纪录。

研究人员认为,他们的算法可以移植到其他应用程序中,例如机器人进行图像或语言处理。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20210226A06YA400?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券
http://www.vxiaotou.com