南洋理工安波：强化学习仍在起步阶段，并不能解决所有问题

文章来源：infoq陈思

6 月 21 日，由北京智源人工智能研究院主办的 2020 北京智源大会正式开幕（直播入口： https://2020.baai.ac.cn ），大会为期四天，各主题论坛和分论坛将围绕如何构建多学科开放协同的创新体系、如何推进人工智能与经济社会发展深度融合、如何建立人工智能安全可控的治理体系、如何与各国携手开展重大共性挑战的研究与合作等一系列当下最受关注的问题进行交流和探讨。在智源大会第四天（6 月 24 日) 上午的强化学习专题论坛上，来自南洋理工大学的安波教授进行了题为《竞争环境下的强化学习》的演讲，分享了他本人及团队有关强化学习的研究和理解。以下内容根据安波的演讲整理，未经本人确认。

解决AI竞争的两种方法

算法博弈

安波教授首先分享了有关博弈论和强化学习的内容。

当竞争出现的时候，可以靠博弈论来解决，很多AI功能的背后也都有博弈论的身影，目前有两种主流的观点：基于算法的，又叫算法博弈论；另一种就是强化学习。

用基于算法博弈的技术解决AI问题，其难度跟AlphaGo一样复杂，比如扑克游戏，要解决特别大规模的优化问题，首先要解决很多算法问题。

因此，可以通过抽象来解决一些问题，虽然这样的技术跟深度学习无关，但也恰恰说明深度学习、强化学习并不能解决所有问题。

此外，安波教授表示，DeepRL（深度强化学习）技术没有十分确定的保障，有时候利用算法优化得到的结果比RL的效果还要好。

安波教授举了一个德州扑克游戏的案例对问题进一步说明。

过去七八年的中，有不少机构和组织对这一问题发起挑战，即：基于多人的德扑挑战，但实际上，这些技术本身并没有任何进展，只不过是扩展双人德扑游戏的技术而已。

安波说，解决多人德扑问题的第一步，是将参与者分为两个队伍，即一个人对多个人，在这样的前提下实现的效果会更好。

随后，安波教授分享了一些他所在的团队在算法博弈方面的工作进展。

针对大规模的问题，要找到有效的算法来应对大规模博弈，当情况变成Team-Maximin时候，很多方法都没有用了。

因此在博弈的时候，可能会多尝试一些方法，试着从回应里去学习一些东西，以达到最好的效果。

可是在竞争环境里，这样的方法是很危险的，有可能会被利用、误导，得到比较差的结果，所以需要找到一个更加健壮的学习算法。

所以安波教授与团队也在研究，当对手采取攻击手段的时候，如何取得好的结果。

强化学习

什么时候需要强化学习？安波教授的分享中提到了如下四点：

问题不能被很好的定义（model）；
大规模问题；
问题本质上完全不能被传统技术优化；
没有可以解释的结构。

在这些情况下，可以优先考虑使用强化学习。

近些年来，有关强化学习的研究也越来越热，安波教授也认为：这是一个欣欣向荣的领域，也诞生出了一些热门的算法，比如近年来得到广泛关注的VDN，QMIX，QTRAN等方法。

之后，安波教授也分享了团队在强化学习领域的研究进展。比如：复杂的桥牌竞争问题，这一方法的研究有跟AlphaGo类似的地方。

此外，强化学习还可以帮助电商平台制定策略，优化目标。比如，有人利用漏洞刷单，则可以利用强化学习制定惩罚机制，防止刷单；或者侦测是否出现刷单的攻击，并通过此方法来提升鲁棒性等等。

在公路电子收费中，也可以看到强化学习发挥作用。传统算法采用的是固定的价格，但安波教授表示，考虑到很多时候道路情况是不断变化的，因此可以采用动态ERP的方法。

强化学习还能够帮助政府和公司指定策略，安教授及其团队也在这一方面有所研究，下图所示的一些论文就是部分研究成果。

结语

在演讲的最后，安波教授认为，未来的AI要考虑更多复杂环境下的问题，有竞争、有合作，所以要分布式地解决。强化学习对于解决某些问题可能会很有效，但是仍在起步阶段，还有很多挑战需要去解决，比如在解决的时候，没办法把基于优化的技术应用在其中，因此还有很大的上升空间。

发表于: 2020-06-242020-06-24 16:08:42
本文为 InfoQ 中文站特供稿件
首发地址：https://www.infoq.cn/article/jxjL0hRGcrHXAIxNZS9C
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

南洋理工安波：强化学习仍在起步阶段，并不能解决所有问题

解决AI竞争的两种方法

算法博弈

强化学习

结语

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐