前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >CVPR 2024 | LiDM:首个可以根据多模态条件生成逼真的激光雷达场景方法,加速107倍

CVPR 2024 | LiDM:首个可以根据多模态条件生成逼真的激光雷达场景方法,加速107倍

作者头像
CV君
发布2024-04-25 17:32:37
970
发布2024-04-25 17:32:37
举报

本篇文章分享 CVPR 2024 论文LiDAR Diffusion:Towards Realistic Scene Generation with LiDAR Diffusion Models,利用激光雷达扩散模型生成逼真场景。

详细信息如下:

  • 论文链接:https://arxiv.org/abs/2404.00815
  • 代码链接:https://github.com/hancyran/LiDAR-Diffusion
  • 项目主页:https://lidar-diffusion.github.io/

背景

近年来,我们观察到可控生成模型的激增,这些模型能够生成具有视觉吸引力且高度逼真的图像。其中,扩散模型(Diffusion Models)因其无可挑剔的性能而成为最流行的方法之一。为了能够在任意条件下生成,潜在扩散模型(Latent Diffusion Models)。其后续应用(例如,Stable Diffusion、Midjourney、ControlNet)进一步增强了其条件图像合成的潜力。

从图像扩散模型到LiDAR扩散模型

这一成功让我们思考:我们是否可以将可控扩散模型(Controllable Diffusion Models)应用于自动驾驶和机器人技术的LiDAR场景生成?

例如,给定一组Bounding Boxes,这些模型能否合成相应的激光雷达场景,从而转化为高质量且昂贵的标记数据?

或者,是否可以仅从汽车上摄像头捕捉的图像去生成相应的 3D 场景?

或者,我们能否设计一种语言驱动的 LiDAR 生成器来进行可控仿真?

为了回答这些问题,我们的目标是设计包含多种条件的扩散模型,以生成逼真的LiDAR的场景。

相关工作

我们从近期自动驾驶相关的扩散模型中观察到了一些现象。基于点的扩散模型,即LiDARGen引入了无条件的LiDAR场景生成。然而,该模型往往会产生嘈杂的背景(例如道路、墙壁)和模糊的物体(例如汽车),导致无法生成 LiDAR 真实场景。

此外,在没有任何压缩的情况下对点应用扩散可以在计算上减慢推理过程。此外,直接应用潜式扩散模型(Latent Diffusion Models)来生成LiDAR场景在定性和定量上都产生了无法令人满意的性能。

LiDAR扩散模型

为了实现条件 LiDAR 真实场景生成,我们提出了一种基于曲线的生成器,称为LiDAR 扩散模型(LiDAR Diffusion Models),以回答上述问题并解决先前工作的一些不足。LiDAR 扩散模型能够将多种条件作为输入,例如边界框、相机图像和语义图。

LiDAR 扩散模型利用range images作为 LiDAR 场景的表示,这在各种下游任务中都很常见,例如检测、语义分割和生成。这种选择基于距离图像和点云之间的可逆和无损转换,以及高度优化的 2D 卷积运算的实质性好处。为了在扩散过程中掌握 LiDAR 场景的语意信息,我们的方法在扩散过程之前对LiDAR 场景编码至一个潜式空间中。

为了进一步提高对现实世界中LiDAR 数据真实性的模拟,我们关注三个关键组成部分:图案真实性、几何真实性和物体真实性

首先,我们在自动编码过程中利用曲线压缩来提取LiDAR中点的曲线形态。

其次,为了达到几何的真实感,我们引入了基于点的坐标监督,以使我们的自动编码器能够理解场景级几何。

最后,我们通过结合Patch-based下采样策略来扩大感受野,以捕获在视觉上较大物体的完整上下文。

通过以上提出的模块,扩散模型能够有效地合成高质量的 LiDAR 场景,同时还表现出卓越的性能,与LiDARGen相比,加速了107倍,并支持任意类型的基于image和基于token的条件为输入

实验

LiDAR Diffusion在无条件LiDAR生成(Unconditional Generation)中实现state-of-the-art:

LiDAR Diffusion同样可以在多种条件下生成相应的LiDAR场景:

Semantic-Map-to-LiDAR

Camera-to-LiDAR

Text-to-LiDAR

本文参与?腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-04-23,如有侵权请联系?cloudcommunity@tencent.com 删除

本文分享自 我爱计算机视觉 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与?腾讯云自媒体分享计划? ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 背景
  • 从图像扩散模型到LiDAR扩散模型
  • 相关工作
  • LiDAR扩散模型
  • 实验
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
http://www.vxiaotou.com