首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

NeRF&Beyond 9.18日报(Robust e-NeRF,DE-NeRF,Repainting3D,AVM-SLAM)

NeRF与三维重建相关

OmnimatteRF: Robust Omnimatte with 3D Background Modeling

https://arxiv.org/abs/2309.07749

马里兰大学、Meta

视频抠图有着广泛的应用,从为随意拍摄的电影添加有趣的效果到协助视频制作专业人士。与阴影和反射等相关效果的抠图也吸引了越来越多的研究活动,并且已经提出了像 Omnimatte 这样的方法来将感兴趣的动态前景对象分离到它们自己的图层中。然而,先前的工作将视频背景表示为 2D 图像层,限制了它们表达更复杂场景的能力,从而阻碍了在现实世界视频中的应用。本文提出了一种新的视频抠图方法 OmnimatteRF,该方法结合了动态 2D 前景层和 3D 背景模型。2D 图层保留了拍摄对象的细节,而 3D 背景则稳健地重建了现实世界视频中的场景。大量的实验表明,本方法可以在各种视频上以更好的质量重建场景。

NeRF和三维重建相关

Deformable Neural Radiance Fields using RGB and Event Cameras

https://arxiv.org/abs/2309.08416

ETH、KU Leuven、Sofia University

仅根据视觉数据对快速移动的可变形物体进行神经辐射场建模是一个具有挑战性的问题。由于高变形和低采集率出现了一个主要问题。为了解决这个问题,本文使用事件相机,它能够以异步方式非常快速地获取视觉变化。本文开发了一种使用 RGB 和事件相机对可变形神经辐射场进行建模的新颖方法。所提出的方法使用异步事件流和校准的稀疏 RGB 帧。在作者的设置中,相机在将它们集成到辐射场所需的各个事件中的姿势仍然未知。本方法联合优化这些姿势和辐射场。通过立即利用事件集合并在学习过程中主动采样事件,可以有效地实现这一点。在真实渲染的图形和真实世界数据集上进行的实验表明,所提出的方法相对于最先进的方法和比较基准具有显着的优势。这为现实世界动态场景中的可变形神经辐射场建模提供了一个有前景的方向。

Robust e-NeRF: NeRF from Sparse & Noisy Events under Non-Uniform Motion

https://arxiv.org/abs/2309.08596

新加坡国立大学

事件摄像机因其独特的工作原理而比标准摄像机具有许多优势:低功耗、低延迟、高时间分辨率和高动态范围。然而,许多下游视觉应用的成功也取决于高效且有效的场景表示,其中神经辐射场(NeRF)被视为主要候选者。事件相机和 NeRF 的这种前景和潜力激发了最近研究从移动事件相机重建 NeRF 的工作。然而,这些工作主要受限于对密集和低噪声事件流的依赖,以及对任意对比度阈值和相机速度配置文件的泛化。?本文提出了 Robust e-NeRF,这是一种新方法,可以在各种现实条件下从移动事件摄像机直接稳健地重建 NeRF,特别是在非均匀运动下生成的稀疏和噪声事件。它由两个关键组件组成:一个现实事件生成模型,该模型考虑了各种内在参数(例如与时间无关的、不对称阈值和不应期)和非理想参数(例如像素到像素阈值变化),以及补充一对归一化重建损失可以有效地推广到任意速度曲线和内在参数值,而无需先验知识。对真实和新颖的真实模拟序列的实验验证了其的有效性。本文代码、合成数据集和改进的事件模拟器都是公开的。

Breathing New Life into 3D Assets with Generative Repainting

https://arxiv.org/abs/2309.08523

ETH、KU Leuven、Sofia University

基于扩散的文本到图像模型引起了视觉社区、艺术家和内容创作者的巨大关注。这些模型的广泛采用是由于生成质量的显着提高以及对各种模式(而不仅仅是文本)的有效调节。然而,将这些 2D 模型的丰富生成先验提升到 3D 具有挑战性。最近的工作提出了由扩散模型和神经场的纠缠驱动的各种管道。本文探索预训练 2D 扩散模型和标准 3D 神经辐射场作为独立工具的强大功能,并展示它们以非学习方式协同工作的能力。这种模块化具有易于部分升级的内在优势,这成为这样一个快节奏领域的重要属性。?本pipeline接受任何传统的可渲染几何体,例如纹理或无纹理网格,协调 2D 生成细化和 3D 一致性强制工具之间的交互,并以多种格式输出绘制的输入几何体。本对 ShapeNetSem 数据集中的各种对象和类别进行了大规模研究,并在定性和定量方面展示了本方法的优势。

SLAM

AVM-SLAM: Semantic Visual SLAM with Multi-Sensor Fusion in a Bird's Eye View for Automated Valet Parking

https://arxiv.org/abs/2309.08180

中科院、Jiayu Intelligent Technology Co.,Ltd.

自动代客泊车 (AVP) 需要在具有挑战性的车库条件下进行精确定位,包括照明不佳、纹理稀疏、重复结构、动态场景以及缺乏全球定位系统 (GPS) 信号,这些通常会给传统定位方法带来问题。为了解决这些问题,我们提出了 AVM-SLAM,这是一种在鸟瞰图 (BEV) 中具有多传感器融合的语义视觉 SLAM 框架。?本文框架集成了四个鱼眼相机、四个轮编码器和一个惯性测量单元(IMU)。鱼眼摄像机构成环视监视器 (AVM) 子系统,生成 BEV 图像。卷积神经网络 (CNN) 从这些图像中提取语义特征,帮助完成绘图和定位任务。这些语义特征提供了长期稳定性和视角不变性,有效缓解了环境挑战。此外,车轮编码器和 IMU 的数据融合通过改进运动估计和减少漂移来增强系统的稳健性。为了验证 AVM-SLAM 的有效性和鲁棒性,我们提供了一个大规模、高分辨率的地下车库数据集,可通过此 https URL 获取。该数据集使研究人员能够在类似环境中进一步探索和评估 AVM-SLAM。

Jason陪你练绝技B站更新地址:https://space.bilibili.com/455056488

NeRF相关工作整理Github repo:https://github.com/yangjiheng/nerf_and_beyond_docs

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OF1dIBKkIz3RhkOLzKM3yuaQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券
http://www.vxiaotou.com