前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >每日学术速递1.22

每日学术速递1.22

作者头像
AiCharm
发布2024-01-22 14:45:36
1180
发布2024-01-22 14:45:36
举报
文章被收录于专栏:AiCharmAiCharm

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

点击下方卡片,关注「AiCharm」公众号

Subjects: cs.CV

1.Open-Vocabulary SAM: Segment and Recognize Twenty-thousand Classes Interactively

标题:开放词汇 SAM:交互式分割和识别 2 万个类别

作者:Haobo Yuan, Xiangtai Li, Chong Zhou, Yining Li, Kai Chen, Chen Change Loy

文章链接:https://arxiv.org/abs/2401.02955

项目代码:https://www.mmlab-ntu.com/project/ovsam/

摘要:

CLIP 和分段任意模型 (SAM) 是出色的视觉基础模型 (VFM)。SAM 擅长跨不同领域的分割任务,而 CLIP 以其零样本识别能力而闻名。本文提出了将这两种模型集成到统一框架中的深入探索。具体来说,我们介绍了 Open-Vocabulary SAM,这是一种受 SAM 启发的模型,专为同步交互式分割和识别而设计,利用两个独特的知识转移模块:SAM2CLIP 和 CLIP2SAM。前者通过蒸馏和可学习的变压器适配器将 SAM 的知识融入到 CLIP 中,而后者则将 CLIP 知识转移到 SAM 中,增强其识别能力。对各种数据集和检测器的大量实验表明,开放词汇 SAM 在分割和识别任务中的有效性,显着优于简单组合 SAM 和 CLIP 的简单基线。此外,在图像分类数据训练的帮助下,我们的方法可以分割和识别大约 22,000 个类别。

2.Latte: Latent Diffusion Transformer for Video Generation

标题:Latte:用于视频生成的潜在扩散变压器

作者:Xin Ma, Yaohui Wang, Gengyun Jia, Xinyuan Chen, Ziwei Liu, Yuan-Fang Li, Cunjian Chen, Yu Qiao

文章链接:https://arxiv.org/abs/2401.03048

项目代码:https://maxin-cn.github.io/latte_project

摘要:

我们提出了一种新颖的潜在扩散变压器,即 Latte,用于视频生成。Latte 首先从输入视频中提取时空标记,然后采用一系列 Transformer 块对潜在空间中的视频分布进行建模。为了对从视频中提取的大量标记进行建模,从分解输入视频的空间和时间维度的角度引入了四种有效的变体。为了提高生成视频的质量,我们通过严格的实验分析确定了 Latte 的最佳实践,包括视频剪辑补丁嵌入、模型变体、时间步级信息注入、时间位置嵌入和学习策略。我们的综合评估表明,Latte 在四个标准视频生成数据集(即 FaceForensics、SkyTimelapse、UCF101 和 Taichi-HD)上实现了最先进的性能。此外,我们将 Latte 扩展到文本到视频生成 (T2V) 任务,其中 Latte 取得了与最新 T2V 模型相当的结果。我们坚信,Latte 为未来将 Transformer 纳入视频生成扩散模型的研究提供了宝贵的见解。

3.GPT-4V(ision) is a Human-Aligned Evaluator for Text-to-3D Generation

标题:GPT-4V(ision) 是一款用于文本转 3D 生成的人性化评估器

作者:Tong Wu, Guandao Yang, Zhibing Li, Kai Zhang, Ziwei Liu, Leonidas Guibas, Dahua Lin, Gordon Wetzstein

文章链接:https://arxiv.org/abs/2401.04092

项目代码:https://gpteval3d.github.io/

摘要:

尽管文本到 3D 生成方法最近取得了进展,但仍然明显缺乏可靠的评估指标。现有的指标通常只关注一个标准,例如资产与输入文本的对齐程度。这些指标缺乏推广到不同评估标准的灵活性,并且可能与人类偏好不太相符。进行用户偏好研究是一种替代方案,可以提供适应性和人性化的结果。然而,扩展用户研究的成本可能非常昂贵。本文提出了一种用于文本转 3D 生成模型的自动、多功能且人性化的评估指标。为此,我们首先使用 GPT-4V 开发一个提示生成器来生成评估提示,作为比较文本到 3D 模型的输入。我们进一步设计了一种方法,指示 GPT-4V 根据用户定义的标准比较两个 3D 资产。最后,我们使用这些成对比较结果来为这些模型分配 Elo 评级。实验结果表明,我们的指标在不同的评估标准上与人类的偏好高度一致。

本文参与?腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-01-22,如有侵权请联系?cloudcommunity@tencent.com 删除

本文分享自 AiCharm 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与?腾讯云自媒体分享计划? ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
http://www.vxiaotou.com