前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >每日学术速递7.13

每日学术速递7.13

作者头像
AiCharm
发布2023-07-26 20:48:27
1940
发布2023-07-26 20:48:27
举报
文章被收录于专栏:AiCharmAiCharm
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

点击下方卡片,关注「AiCharm」公众号

Subjects: cs.CV

1.AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

标题:AnimateDiff:无需特定调整即可为您的个性化文本到图像扩散模型制作动画

作者:Yuwei Guo, Ceyuan Yang, Anyi Rao, Yaohui Wang, Yu Qiao, Dahua Lin, Bo Dai

文章链接:https://arxiv.org/abs/2307.04725

项目代码:https://animatediff.github.io/

摘要:

随着文本到图像模型(例如稳定扩散)和相应的个性化技术(例如 DreamBooth 和 LoRA)的进步,每个人都可以以可承受的成本将他们的想象力转化为高质量的图像。随后,对图像动画技术的需求很大,以进一步将生成的静态图像与运动动态相结合。在本报告中,我们提出了一个实用的框架,可以一劳永逸地对大多数现有的个性化文本到图像模型进行动画处理,从而节省模型特定调整的工作量。所提出框架的核心是将新初始化的运动建模模块插入到冻结的文本到图像模型中,并在视频剪辑上对其进行训练,以提取合理的运动先验。一旦经过训练,通过简单地注入这个运动建模模块,所有源自相同基础 T2I 的个性化版本都可以轻松地变成文本驱动的模型,从而产生多样化和个性化的动画图像。我们对跨动漫图片和现实照片的几个具有代表性的个性化文本到图像模型进行了评估,并证明我们提出的框架可以帮助这些模型生成时间平滑的动画剪辑,同时保留其输出的领域和多样性。代码和预训练权重将在此 https URL 公开提供。

2.Semantic-SAM: Segment and Recognize Anything at Any Granularity

标题:Semantic-SAM:以任何粒度分割和识别任何事物

作者:Feng Li, Hao Zhang, Peize Sun, Xueyan Zou, Shilong Liu, Jianwei Yang, Chunyuan Li, Lei Zhang, Jianfeng Gao

文章链接:https://arxiv.org/abs/2307.04767

摘要:

在本文中,我们介绍了 Semantic-SAM,这是一种通用图像分割模型,可以以任何所需的粒度分割和识别任何内容。我们的模型提供了两个关键优势:语义意识和粒度丰富。为了实现语义感知,我们跨三个粒度整合多个数据集,并引入对象和零件的解耦分类。这使得我们的模型能够捕获丰富的语义信息。对于多粒度能力,我们在训练期间提出了一种多选择学习方案,使每次点击都能生成与多个真实掩模相对应的多个级别的掩模。值得注意的是,这项工作代表了在 SA-1B、通用和部分分割数据集上联合训练模型的首次尝试。实验结果和可视化表明我们的模型成功实现了语义感知和粒度丰富。此外,将 SA-1B 训练与其他分割任务(例如全景和零件分割)相结合,可以提高性能。我们将提供代码和演示以供进一步探索和评估。

3.Large Language Models as General Pattern Machines

标题:作为通用模式机的大型语言模型

作者:Suvir Mirchandani, Fei Xia, Pete Florence, Brian Ichter, Danny Driess, Montserrat Gonzalez Arenas, Kanishka Rao, Dorsa Sadigh, Andy Zeng

文章链接:https://arxiv.org/abs/2307.04721

项目代码:https://general-pattern-machines.github.io/

摘要:

我们观察到,预训练的大语言模型(LLM)能够自回归完成复杂的标记序列——从概率上下文无关语法(PCFG)程序生成的任意标记序列,到抽象推理语料库(ARC)中发现的更丰富的空间模式),一个通用的人工智能基准,以 ASCII 艺术风格提示。令人惊讶的是,即使使用从词汇表中随机采样的标记来表达序列,也可以部分保留模式完成能力。这些结果表明,无需任何额外的培训,法学硕士就可以在上下文学习的驱动下充当通用序列建模者。在这项工作中,我们研究了如何将这些零样本能力应用于机器人技术中的问题——从推断代表随时间变化的状态的数字序列来完成简单的运动,到从最小到最大的奖励条件轨迹的提示,这些轨迹可以发现并表示闭环策略(例如 CartPole 的稳定控制器)。虽然由于延迟、上下文大小限制和计算成本,目前很难在实际系统中部署,但使用 LLM 驱动低级控制的方法可能会令人兴奋地了解单词之间的模式如何转换为操作。

推荐阅读

读心术再现,DreamDiffusion"高清还原"大脑中的画面

2023-07-11

OVO: 无需3D标签的语义占据地图预测

2023-07-10

Nature子刊 | 上交大&上海AI lab研发胸部X-ray疾病诊断基础模型

2023-07-07

在对比学习中引入显式跨图像相似度建能力,中南大学显著提高无监督表征的泛化能力

2023-07-06

点击卡片,关注「AiCharm」公众号

喜欢的话,请给我个在看吧!

本文参与?腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-07-13,如有侵权请联系?cloudcommunity@tencent.com 删除

本文分享自 AiCharm 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与?腾讯云自媒体分享计划? ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
http://www.vxiaotou.com