每日学术速递7.13

AiCharm

发布于 2023-07-26 20:48:27

1940

发布于 2023-07-26 20:48:27

文章被收录于专栏：AiCharmAiCharm

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

点击下方卡片，关注「AiCharm」公众号

Subjects: cs.CV

1.AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

标题：AnimateDiff：无需特定调整即可为您的个性化文本到图像扩散模型制作动画

作者：Yuwei Guo, Ceyuan Yang, Anyi Rao, Yaohui Wang, Yu Qiao, Dahua Lin, Bo Dai

文章链接：https://arxiv.org/abs/2307.04725

项目代码：https://animatediff.github.io/

摘要：

随着文本到图像模型（例如稳定扩散）和相应的个性化技术（例如 DreamBooth 和 LoRA）的进步，每个人都可以以可承受的成本将他们的想象力转化为高质量的图像。随后，对图像动画技术的需求很大，以进一步将生成的静态图像与运动动态相结合。在本报告中，我们提出了一个实用的框架，可以一劳永逸地对大多数现有的个性化文本到图像模型进行动画处理，从而节省模型特定调整的工作量。所提出框架的核心是将新初始化的运动建模模块插入到冻结的文本到图像模型中，并在视频剪辑上对其进行训练，以提取合理的运动先验。一旦经过训练，通过简单地注入这个运动建模模块，所有源自相同基础 T2I 的个性化版本都可以轻松地变成文本驱动的模型，从而产生多样化和个性化的动画图像。我们对跨动漫图片和现实照片的几个具有代表性的个性化文本到图像模型进行了评估，并证明我们提出的框架可以帮助这些模型生成时间平滑的动画剪辑，同时保留其输出的领域和多样性。代码和预训练权重将在此 https URL 公开提供。

2.Semantic-SAM: Segment and Recognize Anything at Any Granularity

标题：Semantic-SAM：以任何粒度分割和识别任何事物

作者：Feng Li, Hao Zhang, Peize Sun, Xueyan Zou, Shilong Liu, Jianwei Yang, Chunyuan Li, Lei Zhang, Jianfeng Gao

文章链接：https://arxiv.org/abs/2307.04767

摘要：

在本文中，我们介绍了 Semantic-SAM，这是一种通用图像分割模型，可以以任何所需的粒度分割和识别任何内容。我们的模型提供了两个关键优势：语义意识和粒度丰富。为了实现语义感知，我们跨三个粒度整合多个数据集，并引入对象和零件的解耦分类。这使得我们的模型能够捕获丰富的语义信息。对于多粒度能力，我们在训练期间提出了一种多选择学习方案，使每次点击都能生成与多个真实掩模相对应的多个级别的掩模。值得注意的是，这项工作代表了在 SA-1B、通用和部分分割数据集上联合训练模型的首次尝试。实验结果和可视化表明我们的模型成功实现了语义感知和粒度丰富。此外，将 SA-1B 训练与其他分割任务（例如全景和零件分割）相结合，可以提高性能。我们将提供代码和演示以供进一步探索和评估。

3.Large Language Models as General Pattern Machines

标题：作为通用模式机的大型语言模型

作者：Suvir Mirchandani, Fei Xia, Pete Florence, Brian Ichter, Danny Driess, Montserrat Gonzalez Arenas, Kanishka Rao, Dorsa Sadigh, Andy Zeng

文章链接：https://arxiv.org/abs/2307.04721

项目代码：https://general-pattern-machines.github.io/

摘要：

我们观察到，预训练的大语言模型（LLM）能够自回归完成复杂的标记序列——从概率上下文无关语法（PCFG）程序生成的任意标记序列，到抽象推理语料库（ARC）中发现的更丰富的空间模式），一个通用的人工智能基准，以 ASCII 艺术风格提示。令人惊讶的是，即使使用从词汇表中随机采样的标记来表达序列，也可以部分保留模式完成能力。这些结果表明，无需任何额外的培训，法学硕士就可以在上下文学习的驱动下充当通用序列建模者。在这项工作中，我们研究了如何将这些零样本能力应用于机器人技术中的问题——从推断代表随时间变化的状态的数字序列来完成简单的运动，到从最小到最大的奖励条件轨迹的提示，这些轨迹可以发现并表示闭环策略（例如 CartPole 的稳定控制器）。虽然由于延迟、上下文大小限制和计算成本，目前很难在实际系统中部署，但使用 LLM 驱动低级控制的方法可能会令人兴奋地了解单词之间的模式如何转换为操作。

每日学术速递7.13

每日学术速递7.13

推荐阅读

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐