强化学习算法在经典小游戏中的得分高于人类和其他的AI系统

文章来源：企鹅号 - 猎维科技

研究人员开发了一套学习算法，事实证明，这些算法比人类玩家或其他AI系统在玩经典视频游戏方面更胜一筹。研究人员解释了他们的算法与其他算法有何不同，以及为什么他们认为它们在机器人技术，语言处理甚至是新药设计中都有应用。

强化学习算法通过综合大型数据集中提供的信息来学习如何做事——它们可以识别模式并使用它们来猜测新数据。这就是强化学习算法用于在X射线中发现肺癌的方法。但是，正如研究人员通过这项新工作所指出的那样，当此类算法遇到与数据集中其他数据不匹配的数据时，往往会遇到麻烦。这就是为什么此类系统有时会返回错误结果的原因。

在这项新的工作中，研究人员通过添加一种算法来解决该问题，该算法可以记住先前算法尝试解决问题时采取的所有路径。当发现不正确的数据点时，它将返回其内存映射并尝试另一条路由。在玩视频游戏方面，它在玩游戏时保留屏幕抓取功能，当发现自己输了游戏时，又回到游戏的另一点并尝试另一种方法。该算法还将看起来相似的图像分组在一起，以弄清楚如果出现问题，它应该返回哪个时间点。

研究人员通过添加游戏规则和目标来测试他们的新方法——尽可能多地得分，并每次尝试获得更高的分数。然后，他们使用自己的系统玩55场Atari游戏，随着时间的流逝，它们已成为测试AI系统的基准。新系统在85.5％的时间内击败了其他AI系统。它在蒙特祖玛的《复仇》中表现特别出色，得分高于其他任何AI系统，并刷新了人类纪录。

研究人员认为，他们的算法可以移植到其他应用程序中，例如机器人进行图像或语言处理。

发表于: 2021-02-262021-02-26 14:26:14
原文链接：https://kuaibao.qq.com/s/20210226A06YA400?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

强化学习算法在经典小游戏中的得分高于人类和其他的AI系统

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐