每日学术速递1.22

AiCharm

发布于 2024-01-22 14:45:36

1180

发布于 2024-01-22 14:45:36

文章被收录于专栏：AiCharmAiCharm

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

点击下方卡片，关注「AiCharm」公众号

Subjects: cs.CV

1.Open-Vocabulary SAM: Segment and Recognize Twenty-thousand Classes Interactively

标题：开放词汇 SAM：交互式分割和识别 2 万个类别

作者：Haobo Yuan, Xiangtai Li, Chong Zhou, Yining Li, Kai Chen, Chen Change Loy

文章链接：https://arxiv.org/abs/2401.02955

项目代码：https://www.mmlab-ntu.com/project/ovsam/

摘要：

CLIP 和分段任意模型 (SAM) 是出色的视觉基础模型 (VFM)。SAM 擅长跨不同领域的分割任务，而 CLIP 以其零样本识别能力而闻名。本文提出了将这两种模型集成到统一框架中的深入探索。具体来说，我们介绍了 Open-Vocabulary SAM，这是一种受 SAM 启发的模型，专为同步交互式分割和识别而设计，利用两个独特的知识转移模块：SAM2CLIP 和 CLIP2SAM。前者通过蒸馏和可学习的变压器适配器将 SAM 的知识融入到 CLIP 中，而后者则将 CLIP 知识转移到 SAM 中，增强其识别能力。对各种数据集和检测器的大量实验表明，开放词汇 SAM 在分割和识别任务中的有效性，显着优于简单组合 SAM 和 CLIP 的简单基线。此外，在图像分类数据训练的帮助下，我们的方法可以分割和识别大约 22,000 个类别。

2.Latte: Latent Diffusion Transformer for Video Generation

标题：Latte：用于视频生成的潜在扩散变压器

作者：Xin Ma, Yaohui Wang, Gengyun Jia, Xinyuan Chen, Ziwei Liu, Yuan-Fang Li, Cunjian Chen, Yu Qiao

文章链接：https://arxiv.org/abs/2401.03048

项目代码：https://maxin-cn.github.io/latte_project

摘要：

我们提出了一种新颖的潜在扩散变压器，即 Latte，用于视频生成。Latte 首先从输入视频中提取时空标记，然后采用一系列 Transformer 块对潜在空间中的视频分布进行建模。为了对从视频中提取的大量标记进行建模，从分解输入视频的空间和时间维度的角度引入了四种有效的变体。为了提高生成视频的质量，我们通过严格的实验分析确定了 Latte 的最佳实践，包括视频剪辑补丁嵌入、模型变体、时间步级信息注入、时间位置嵌入和学习策略。我们的综合评估表明，Latte 在四个标准视频生成数据集（即 FaceForensics、SkyTimelapse、UCF101 和 Taichi-HD）上实现了最先进的性能。此外，我们将 Latte 扩展到文本到视频生成 (T2V) 任务，其中 Latte 取得了与最新 T2V 模型相当的结果。我们坚信，Latte 为未来将 Transformer 纳入视频生成扩散模型的研究提供了宝贵的见解。

3.GPT-4V(ision) is a Human-Aligned Evaluator for Text-to-3D Generation

标题：GPT-4V(ision) 是一款用于文本转 3D 生成的人性化评估器

作者：Tong Wu, Guandao Yang, Zhibing Li, Kai Zhang, Ziwei Liu, Leonidas Guibas, Dahua Lin, Gordon Wetzstein

文章链接：https://arxiv.org/abs/2401.04092

项目代码：https://gpteval3d.github.io/

摘要：

尽管文本到 3D 生成方法最近取得了进展，但仍然明显缺乏可靠的评估指标。现有的指标通常只关注一个标准，例如资产与输入文本的对齐程度。这些指标缺乏推广到不同评估标准的灵活性，并且可能与人类偏好不太相符。进行用户偏好研究是一种替代方案，可以提供适应性和人性化的结果。然而，扩展用户研究的成本可能非常昂贵。本文提出了一种用于文本转 3D 生成模型的自动、多功能且人性化的评估指标。为此，我们首先使用 GPT-4V 开发一个提示生成器来生成评估提示，作为比较文本到 3D 模型的输入。我们进一步设计了一种方法，指示 GPT-4V 根据用户定义的标准比较两个 3D 资产。最后，我们使用这些成对比较结果来为这些模型分配 Elo 评级。实验结果表明，我们的指标在不同的评估标准上与人类的偏好高度一致。

本文参与?腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2024-01-22，如有侵权请联系?cloudcommunity@tencent.com 删除

模型