吊打OpenAI！谷歌重磅开源强化学习框架Dopamine

文章来源：infoq谷歌博客

强化学习（RL）领域的研究在过去几年中取得了重大进展，这些进展让相关代理能够以超人类水平玩游戏——包括DeepMind的DQN（AlphaGo和AlphaGo Zero）和Open AI Five。具体地说，在DQN中引入重放记忆可以利用以前的代理经验，大规模分布式训练可以在多个工作进程之间分配学习任务，分布式方法让代理对完整的分布（而不只是期望值）进行建模，从而实现更完整的学习。这方面的进展非常重要，因为相关算法还可以应用到其他领域，例如机器人技术。

通常，这类进展要求在设计方面进行快速迭代——通常没有明确的方向——并颠覆已有的方法结构。然而，大多数现有的RL框架并不会提供灵活性和稳定性组合，让研究人员能够有效地迭代RL方法，发现新的但可能没有直接明显好处的研究方向。此外，在现有框架中重现结果通常太耗时，从而导致科学的可重现性问题。

今天，我们推出了一个全新的基于Tensorflow的框架——Dopamine，旨在为RL研究人员提供灵活性、稳定性和可重复性。这个框架受大脑奖励动机行为主要组件的启发，并反映了神经科学与强化学习研究之间强的历史联系，旨在实现可以推动激进发现的投机性研究。该框架还提供了一组解释如何使用框架的Colab（https://github.com/google/dopamine/blob/master/dopamine/colab/README.md）。

易用性

清晰和简洁是这个框架的两个关键设计考虑因素。我们提供的代码非常紧凑（大约15个Python文件），并且有详细的文档。这是基于Arcade学习环境（一个成熟的、易于理解的基准）和四个基于值的代理DQN、C51、Rainbow代理的简化版本以及隐式分位数网络代理（刚在上个月的国际机器学习大会上发布）实现的。我们希望这种简洁能够让研究人员轻松了解代理的内部运作并快速尝试新的想法。

可重现性

我们非常关注可重现性在强化学习研究中的作用。我们的代码通过了完整的测试覆盖，这些测试用例也可作为某种形式的文档使用。此外，我们的实验框架遵循了Machado等人给出的使用Arcade学习环境标准化进行经验评估的建议。

基准测试

对于研究人员来说，能够根据已有方法快速对想法进行基准测试是非常重要的。因此，我们以Python pickle文件（用于使用我们的框架训练的代理）和JSON数据文件（用于与其他框架训练的代理进行比较）的形式提供了受Arcade学习环境支持的60个游戏的完整训练数据。我们还提供了一个网站，可以在上面快速查看所有的训练运行情况。下图展示了我们的4个代理在Seaquest上的训练运行情况。

x轴表示迭代，其中每次迭代是100万个游戏帧（4.5小时的实时游戏）；y轴是每场比赛获得的平均分数；阴影区域显示来自5次独立运行的置信区间。

我们还提供这些代理训练的深度网络、原始统计日志以及Tensorflow事件文件。这些都可以从我们的网站上下载。

开源项目地址：https://github.com/google/dopamine

可视化网站：https://google.github.io/dopamine/baselines/plots.html

想了解更多关于强化学习的内容，请参看下面的文章：

深度强化学习劝退文和泡沫破裂之后，强化学习路在何方？

查看英文原文：https://ai.googleblog.com/2018/08/introducing-new-framework-for-flexible.html

发表于: 2018-08-302018-08-30 00:00:00
本文为 InfoQ 中文站特供稿件
首发地址：http://www.infoq.com/cn/news/2018/08/google-opensource-dopamine
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

吊打OpenAI！谷歌重磅开源强化学习框架Dopamine

易用性

可重现性

基准测试

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐