首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

什么时候强化学习未必好用?

作者 Jason Xie

编译 Erica Yi

编辑 Emily

强化学习(reinforcement learning)描述的是个体(agent)必须在环境(environment)中采取行动(action),以最大化设定的奖励(reward)函数的学习问题的集合。

不同于监督式深度学习,强化学习并不会出现大量明确标记好的输入 /输出对数据。大部分的强化学习都在网上进行,也就是说当个体积极地与它的环境进行多次迭代互动时,它最终开始学习采取怎样的行为会使自身奖励最大化的方案(policy)。

强化学习建立问题模型需要满足几个条件:

你可以量化环境描述中所有的变量,并且能够在每个时间步或者状态访问这些变量

上述两个条件,现实世界中几乎无法满足。在大多数的情况下,你往往只能访问部分的信息。而且因为这些信息是以个体为中心的观点(至少在机器人和未知环境互动的情况下)来衡量的,所以你访问的信息可能本身就有误,需要进一步的推断。

你可以定义一个具体的奖励函数(concrete reward function)并计算采取某种行动的奖励

奖励函数可能并不明显。比如,如果我设计了一个个体来为自动驾驶的车辆执行路径规划,我们应该如何从数学上来表达奖励呢?我们又如何知道我们定义的奖励函数是“好的”呢?

一种能解决这个问题的方法是 inverse reinforcement learning(PDF)

你能够承担起犯错的代价

无后顾之忧地去探索的自由不常有。如果我想基于强化学习开发一个自动驾驶车辆,它要撞成千上万次才能做出最简单的演习?

不应忽视的是,尽管如此,在模拟情景下的训练也已经在现实世界中让性能得到了提升,(见 Playing for Data: Ground Truth from Computer Games一文)

你有时间

因为强化学习主要在网上进行,所以为了建立一个有效的模型,你需要进行很多很多次的试验。当手边的任务很简单,行动是离散的,信息已经存在的情况下,这是可以接受的。但是在很多的情况下,问题表达式(problem formulation)要复杂得多,你必须在模拟器的准确度和训练时间以及实时性能的约束之间取得平衡。正是由于这些局限性,所以最近在强化学习方面的成功几乎完全是在模拟的受控环境中取得的(想想 DeepMind对 Atari和 AlphaGo的研究)。我们仍需要大量的研究,来克服这些局限性并使深度强化学习能够更有效的用于实时个体。

作者简介

Jason Xie是一名对 AI和机器人感兴趣的学生。保持好奇,保持学习。

https://www.kdnuggets.com/2017/12/when-reinforcement-learning-not-used.html

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171217G0EI2W00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券
http://www.vxiaotou.com