前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >每日学术速递7.19

每日学术速递7.19

作者头像
AiCharm
发布2023-07-26 21:11:58
2780
发布2023-07-26 21:11:58
举报
文章被收录于专栏:AiCharmAiCharm

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

点击下方卡片,关注「AiCharm」公众号

Subjects: cs.CV

1.Objaverse-XL: A Universe of 10M+ 3D Objects

标题:Objaverse-XL:超过 1000 万个 3D 对象的宇宙

作者:Matt Deitke, Ruoshi Liu, Matthew Wallingford, Huong Ngo, Oscar Michel, Aditya Kusupati, Alan Fan

文章链接:https://arxiv.org/abs/2307.05663

摘要:

自然语言处理和 2D 视觉模型主要通过扩大训练数据规模在许多任务上取得了显着的熟练程度。然而,3D 视觉任务并没有取得同样的进展,部分原因是获取高质量 3D 数据的挑战。在这项工作中,我们展示了 Objaverse-XL,这是一个包含超过 1000 万个 3D 对象的数据集。我们的数据集包含来自不同来源的重复数据删除 3D 对象,包括手动设计的对象、地标和日常物品的摄影测量扫描以及历史和古董文物的专业扫描。Objaverse-XL 代表了 3D 数据集领域最大的规模和多样性,为 3D 视觉带来了重大的新可能性。我们的实验证明了 Objaverse-XL 提供的规模所带来的改进。我们表明,通过训练 Zero123 进行新颖的视图合成,利用超过 1 亿张多视图渲染图像,我们实现了强大的零样本泛化能力。我们希望 Objaverse-XL 的发布能够推动 3D 视觉领域的进一步大规模创新。

2.Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution

标题:补丁包:NaViT,适用于任何宽高比和分辨率的视觉转换器

作者:Mostafa Dehghani, Basil Mustafa, Josip Djolonga, Jonathan Heek, Matthias Minderer, Mathilde Caron

文章链接:https://arxiv.org/abs/2307.06304

摘要:

在使用计算机视觉模型处理图像之前将图像大小调整为固定分辨率的普遍且明显次优的选择尚未成功受到挑战。然而,诸如 Vision Transformer (ViT) 之类的模型提供了灵活的基于序列的建模,因此可以改变输入序列长度。我们利用 NaViT(原生分辨率 ViT)来利用这一点,它在训练期间使用序列打包来处理任意分辨率和宽高比的输入。除了灵活的模型使用之外,我们还展示了大规模监督和对比图像文本预训练的训练效率的提高。NaViT 可以有效地转移到图像和视频分类、对象检测和语义分割等标准任务,并提高鲁棒性和公平性基准的结果。在推理时,输入分辨率的灵活性可用于平稳地进行测试时的成本性能权衡。我们相信 NaViT 标志着与大多数计算机视觉模型使用的标准、CNN 设计的输入和建模管道的背离,并代表了 ViT 的一个有前途的方向。

3.SayPlan: Grounding Large Language Models using 3D Scene Graphs for Scalable Task Planning(CORL 2023)

标题:SayPlan:使用 3D 场景图为大型语言模型奠定基础,实现可扩展的任务规划

作者:Krishan Rana, Jesse Haviland, Sourav Garg, Jad Abou-Chakra, Ian Reid, Niko Suenderhauf

文章链接:https://arxiv.org/abs/2307.06135

项目代码:https://sayplan.github.io/

摘要:

大型语言模型(LLM)在开发用于不同任务的通用规划代理方面取得了令人印象深刻的成果。然而,在广阔的多层、多房间环境中实施这些计划对机器人技术提出了重大挑战。我们介绍 SayPlan,这是一种使用 3D 场景图 (3DSG) 表示的基于 LLM 的大规模机器人任务规划方法。为了确保我们方法的可扩展性,我们:(1)利用 3DSG 的分层性质,允许 LLM 从完整图的较小、折叠表示中对与任务相关的子图进行语义搜索;(2) 通过集成经典路径规划器来缩短法学硕士的规划范围,(3) 引入迭代重新规划流程,使用场景图模拟器的反馈来完善初始计划,纠正不可行的操作并避免规划失败。我们在两个跨越 3 层楼、36 个房间和 140 个物体的大型环境中评估了我们的方法,并表明我们的方法能够根据移动设备的抽象和自然语言指令来制定大规模、长期的任务计划。机械手机器人来执行。

本文参与?腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-07-19,如有侵权请联系?cloudcommunity@tencent.com 删除

本文分享自 AiCharm 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与?腾讯云自媒体分享计划? ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
http://www.vxiaotou.com