每日学术速递1.12

AiCharm

发布于 2024-01-14 21:01:44

980

发布于 2024-01-14 21:01:44

文章被收录于专栏：AiCharmAiCharm

1.A Minimaximalist Approach to Reinforcement Learning from Human Feedback

标题：从人类反馈中强化学习的最小极大主义方法

作者：Gokul Swamy, Christoph Dann, Rahul Kidambi, Zhiwei Steven Wu, Alekh Agarwal

文章链接：https://arxiv.org/abs/2401.04056

摘要：

我们提出了自我对弈偏好优化（SPO），这是一种根据人类反馈进行强化学习的算法。我们的方法是极简的，因为它不需要训练奖励模型，也不需要不稳定的对抗训练，因此实施起来相当简单。我们的方法是最大化的，因为它可以证明可以处理非马尔可夫、不及物和随机偏好，同时对困扰离线顺序预测方法的复合错误具有鲁棒性。为了实现上述品质，我们建立了最小最大获胜者（MW）的概念，这是社会选择理论文献中的偏好聚合概念，它将偏好学习视为两项政策之间的零和博弈。通过利用这个博弈的对称性，我们证明，我们可以简单地让一个代理与自己对战，同时保持强大的收敛保证，而不是使用两个策略决斗来计算 MW 的传统技术。实际上，这对应于从策略中采样多个轨迹，要求评估者或偏好模型对它们进行比较，然后使用获胜比例作为特定轨迹的奖励。我们证明，在一系列连续控制任务中，我们能够比基于奖励模型的方法更有效地学习，同时保持对实践中汇总人类判断时经常出现的不及物和随机偏好的鲁棒性。

2.Model-based Outdoor Performance Capture

标题：基于模型的户外表演捕捉

作者：Nadia Robertini Dan Casas Helge Rhodin Hans-Peter Seidel Christian Theobalt 1Max Planck Institute for Informatics Intel Visual Computing Institute

文章链接：https://vcai.mpi-inf.mpg.de/projects/OutdoorPerfcap/content/robertini_3DV2016.pdf

项目代码：https://vcai.mpi-inf.mpg.de/projects/OutdoorPerfcap/

摘要：

我们提出了一种基于模型的新方法，可以准确地重建在多摄像机设置中在户外捕获的人类表现。从演员模型的模板开始，我们为关节骨架跟踪和非刚性表面形状细化引入了一种新的统一隐式表示。我们的方法分两个阶段将模板拟合到未分段的视频帧 - 首先，估计粗略的骨骼姿势，随后联合细化非刚性表面形状和身体姿势。特别是对于表面形状细化，我们提出了一种新的 3D 高斯组合，旨在将投影模型与可能的轮廓

3.Masked Audio Generation using a Single Non-Autoregressive Transformer

标题：使用单个非自回归变压器生成屏蔽音频

作者：Alon Ziv, Itai Gat, Gael Le Lan, Tal Remez, Felix Kreuk, Alexandre Défossez, Jade Copet, Gabriel Synnaeve, Yossi Adi

文章链接：https://arxiv.org/abs/2401.04577

项目代码：https://pages.cs.huji.ac.il/adiyoss-lab/MAGNeT/

摘要：

我们引入了 MAGNeT，一种直接在多个音频标记流上运行的掩码生成序列建模方法。与之前的工作不同，MAGNeT 由单级非自回归变压器组成。在训练过程中，我们预测从掩码调度程序获得的掩码令牌的范围，而在推理过程中，我们使用几个解码步骤逐渐构建输出序列。为了进一步提高生成音频的质量，我们引入了一种新颖的重新评分方法，其中我们利用外部预训练模型对 MAGNeT 的预测进行重新评分和排名，然后将其用于后续的解码步骤。最后，我们探索了 MAGNeT 的混合版本，其中我们融合自回归和非自回归模型，以自回归方式生成前几秒，同时并行解码序列的其余部分。我们展示了 MAGNeT 在文本到音乐和文本到音频生成任务中的效率，并考虑客观指标和人类研究，进行了广泛的实证评估。所提出的方法与评估的基线相当，同时速度明显更快（比自回归基线快 7 倍）。通过消融研究和分析，我们阐明了组成 MAGNeT 的每个组件的重要性，并指出了自回归和非自回归建模之间的权衡，考虑了延迟、吞吐量和生成质量。

本文参与?腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2024-01-12，如有侵权请联系?cloudcommunity@tencent.com 删除

强化学习