首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
首页标签强化学习

#强化学习

强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。

算法人生(7):从“时间折扣策略”看“战胜拖延”(等待最佳时机版)

养心进行时

现代人拖延产生的原因有很多,比如因为害怕失败而拖延,因为完美主义倾向而拖延,不想走出“舒适区”而拖延等等, 今天我们要针对一个常见的原因“一直觉得没有准备好,想...

300

算法人生(6):从“反馈学习”看“战胜拖延”(被动gong击版)

养心进行时

现代人拖延产生的原因有很多,比如因为害怕失败而拖延,因为完美主义倾向而拖延,不想走出“舒适区”而拖延等等, 今天我们要针对一个常见的原因“对安排事情的人或事心有...

500

算法人生(4):从“选项学习”看“战胜拖延”(担心失败版)

养心进行时

现代人拖延产生的原因有很多,比如因为担心失败而拖延,觉得要做的事情没有意思而拖延,不想走出“舒适区”而拖延等等,?今天我们要针对一个常见的原因“担心失败”而产生...

5820

算法人生(2):从“强化学习”看如何“活在当下”

养心进行时

强化学习概念,大意是说智能体在环境中通过与该环境的互动学习来学到如何最大化累积奖励的过程,它不像监督学习那样预先知道所有的标签(即正确的输出),它必须在有限的、...

11420

DPO作者新作|From r to Q*

NewBeeNLP

本文几乎是DPO的原班人马搞的,新来的Joey Hejna是X-QL(本文部分核心理论)一作。这篇文章并没有提出一个新的算法,或者是在一个新的任务上刷了SOTA...

9310

算法人生(1):从“强化学习”看如何“战胜拖延”

养心进行时

这个系列旨在关联各种“算法”的思路介绍各种成长“方法”,让算法思路不止可以用在程序上,也可以用在“人生成长”上!

11720

强化学习系列(九)--A3C

languageX

好久没有更新强化学习这个系列了,今天继续更新下强化学习系列的A3C技术,后面会结合当前最火大模型强化学习训练持续更新此系列。

16920

微软 | WizardLM-2被紧急撤回,有内幕?

ShuYini

前段时间,微软搞了个乌龙:隆重地开源了 WizardLM-2,又在不久后撤回得干干净净。

8610

使用Python实现强化学习算法

人类群星闪耀时

当谈论强化学习时,我们在讨论一种机器学习方法,其目标是教会智能体(agent)在与环境的交互中学习最优的行为策略,以最大化累积奖励。在本文中,我们将介绍强化学习...

9110

这就是OpenAI神秘的Q*?斯坦福:语言模型就是Q函数

机器之心

还记得去年 11 月底爆出来的 Q* 项目吗?这是传说中 OpenAI 正在秘密开展、或将带来颠覆性变革的 AI 项目。如果你想回忆一下,可参看机器之心当时的报...

10810

【综述专栏】图强化学习在组合优化中的应用

马上科普尚尚

在科学研究中,从方法论上来讲,都应“先见森林,再见树木”。当前,人工智能学术研究方兴未艾,技术迅猛发展,可谓万木争荣,日新月异。对于AI从业者来说,在广袤的知识...

14510

Science Robotics封面!DeepMind强化学习打造超一流机器人球员

新智元

【新智元导读】双足机器人运动技能突破!谷歌DeepMind创新深度强化学习框架,赋能仿人机器人全身控制,征战足球赛场。机器人展现惊人动态技能,跌倒自恢复,战术防...

15910

「大模型+强化学习」最新综述!港中文深圳130余篇论文:详解四条主流技术路线

新智元

在此背景下,LLM可以提高强化学习在例如多任务学习、样本利用率、任务规划等方面的能力,帮助提高强化学习在复杂应用下的学习表现,例如自然语言指令跟随、谈判、自动驾...

24010

港大张清鹏团队提出个性化癌症治疗新思路:用 AI 控制癌细胞进化过程

AI科技评论

确认了强化学习算法后,需要构建强化学习环境,研究人员基于tM-GLV模型构建了PCaC环境,包含肿瘤的连续状态空间,药物控制动作,以及即时反馈(奖励函数)。因此...

12910

每日论文速递 | RLRF: 从反思反馈中不断迭代进行强化学习对齐

zenRRan

摘要:尽管 RLHF 在使 LLM 与人类偏好相一致方面大有可为,但它往往会导致表面上的一致,优先考虑风格上的变化,而不是改善 LLM 的下游性能。不明确的偏好...

19410

强化学习第十三篇:使用深度学习解决迷宫问题,完整步骤和代码

double

前面强化学习推送到第十二篇,迷宫问题已使用Q-learning解决过,今天使用另一种方法:深度Q网络,简称DQN网络解决。

28910

探讨ChatGPT的强化学习:AI学习与交互的未来

猫头虎

本文探讨了ChatGPT的强化学习应用与其对AI学习与交互的未来影响。引言部分介绍了人工智能、自然语言处理和GPT系列模型的概念,引出了ChatGPT作为最新版...

13410

英伟达通用人形机器人平台技术介绍

用户7353950

最近,英伟达(NVIDIA)推出的通用人形机器人平台,特别是其“人形机器人通用基础模型Project GR00T,结合了多种先进的人工智能技术和硬件支持,旨在为...

7910

探索Python中的强化学习:DQN

人类群星闪耀时

强化学习是一种机器学习方法,用于训练智能体(agent)在与环境的交互中学习如何做出最优决策。DQN(Deep Q-Network)是强化学习中的一种基于深度神...

12310

探索Python中的强化学习:SARSA

人类群星闪耀时

强化学习是一种机器学习方法,用于训练智能体(agent)在与环境的交互中学习如何做出最优决策。SARSA是强化学习中的一种基于状态-行动-奖励-下一个状态的方法...

9210
领券
http://www.vxiaotou.com